Qualitätskriterien für Digitale Verhaltensdaten: eine Annäherung

Digital technologies have profoundly changed our lives. Social media, online platforms, and smartphones are a taken-for-granted part of our everyday life. They generate quantities of so-called Digital Behavioral Data, DBD — traces of human and algorithmic actions in the digital space. The problem is that DBD arise as a by-product of daily online activities. These data were — unlike social-science survey data — not collected for research purposes. This raises questions for researchers, such as whether the data are complete, accurate, and representative. An overview of current research on Digital Behavioral Data.
Digitale Technologien haben unser Leben tiefgreifend verändert. Soziale Medien, Online-Plattformen und Smartphones sind selbstverständlicher Teil unseres Alltags. Sie erzeugen Mengen sogenannter digitaler Verhaltensdaten (Digital Behavioral Data, kurz DBD) also Spuren menschlichen und algorithmischen Handelns im digitalen Raum. Allerdings entstehen digitale Verhaltensdaten als Nebenprodukte täglicher Online-Aktivitäten. Diese Daten wurden – anders als sozialwissenschaftliche Umfragedaten – nicht zu Forschungszwecken erhoben. Dies wirft Fragen für die Forschung auf, wie zum Beispiel die, ob die Daten vollständig, genau und repräsentativ sind. Ein Überblick über aktuelle Forschung über digitale Verhaltensdaten.
DOI: 10.34879/gesisblog.2025.113
Die Basis des folgenden Beitrags bildet das Editorial von Weiß, Leitgöb & Wagner (2025) im Social Science Computer Review, das das Special Issue „Conceptualizing, Assessing, and Improving the Quality of Digital Behavioral Data“ eröffnet und eine systematische Perspektive auf die methodischen Herausforderungen digitaler Spuren einnimmt.1 Das Themenheft versammelt neun Beiträge, die sich mit der Konzeptualisierung, Bewertung und Verbesserung der Qualität digitaler Verhaltensdaten befassen.
Die Forscher*innen Weiß, Leitgöb und Wagner argumentieren, dass digitale Verhaltensdaten nicht mit denselben Maßstäben bewertet werden können wie Umfragedaten. Statt von „guter“ oder „schlechter“ Qualität zu sprechen, müsse man neu definieren, was Qualität überhaupt bedeutet, wenn Daten in digitalen Räumen entstehen, die sich Forschende weder aussuchen noch kontrollieren können.
Die Suche nach einem Qualitätsrahmen
In der Umfrageforschung existieren seit Jahrzehnten bewährte Qualitätskonzepte wie das Total Survey Error (TSE)-Framework. Dieses Modell deckt systematisch Fehlerquellen ab, von der Stichprobe bis zur Messung. Für digitale Verhaltensdaten gibt es dazu bisher kein Äquivalent.
Daikeler et al. (2024)2 bietet mit ihrer Analyse von 58 bestehenden Datenqualitäts-Frameworks einen umfassenden Überblick und prüfen, wie sich diese Konzepte auf die digitale Sozialforschung übertragen lassen. Schneck und Przepiorka (2024)3 schlagen mit ihrem „Total Error Framework for Digital Behavioral Data (TEF-DBD)“ ein neues Modell vor, das typische Fehlerquellen digitaler Spuren systematisch erfasst und quantifiziert. Andere Beiträge, etwa von Antoun und Wenz (2024)4 oder Cernat et al. (2024)5, vergleichen digitale Verhaltensdaten mit klassischen Befragungsdaten, und kommen zu einem differenzierten Ergebnis: Digitale Spuren sind nicht automatisch besser, sondern anders. Sie eröffnen neue Möglichkeiten, bringen aber auch neue Herausforderungen mit sich.
Vier Typen digitaler Verhaltensdaten
Das Editorial greift eine von Wagner et al. (2025)6 entwickelte Typologie digitaler Verhaltensdaten auf, die zwei grundlegende Dimensionen aufzeigt. Zum einen wird die Art der Datenentstehung unterschieden: Designed data werden gezielt für Forschungszwecke erhoben, etwa durch speziell entwickelte Apps, Tracking-Studien oder Datenspendeprojekte. Found Data dagegen entstehen unbeabsichtigt, als Nebenprodukt alltäglicher digitaler Aktivitäten, beispielsweise durch Social-Media-Posts, Suchverläufe oder App-Nutzungsdaten.
Zum anderen nimmt das Schema den Erhebungsmodus in den Blick. User-centered data entstehen durch aktive Mitwirkung der Nutzerinnen und Nutzer, die ihre Daten bewusst freigeben oder an Studien teilnehmen. Platform-centered data werden direkt von digitalen Plattformen generiert und verarbeitet – unabhängig davon, ob die betroffenen Personen von der Datennutzung wissen oder zustimmen.
Aus der Kombination dieser beiden Dimensionen ergeben sich vier grundlegende Typen digitaler Verhaltensdaten:
- User-centered designed DBD: Daten, die aktiv und gezielt im Rahmen von Forschungsprojekten erhoben werden.
- User-centered found DBD: Daten, die durch Nutzeraktivitäten entstehen, ohne dass sie gezielt für Forschung gesammelt werden.
- Platform-centered designed DBD: Daten, die Plattformen im Auftrag oder in Kooperation mit Forschung gezielt erzeugen.
- Platform-centered found DBD: unbeabsichtigt entstehende Plattformdaten, wie etwa Social-Media- oder Webtracking-Daten, die nachträglich für Analysen genutzt werden.
Diese Typologie macht sichtbar, dass digitale Verhaltensdaten je nach Entstehung und Erhebungsmodus sehr unterschiedliche methodische, rechtliche und ethische Herausforderungen mit sich bringen.
Intrinsische, extrinsische und kontextuelle Qualität
Die Forschenden stellen des Weiteren fest, dass auch die Datenqualität sich in drei Dimensionen unterscheiden lässt:
- intrinsische Qualität, die die grundlegenden Eigenschaften der Daten wie Genauigkeit, Konsistenz und Vollständigkeit beschreibt;
- extrinsische Qualität, die die Eignung der Daten für einen bestimmten Verwendungszweck bewertet;
- kontextuelle oder Verarbeitungsqualität, die rechtliche, ethische sowie dokumentarische Aspekte der Datenerhebung, -verarbeitung und -weitergabe umfasst.
Zusammengenommen bestimmen diese Dimensionen die Güte der wissenschaftlichen Schlussfolgerungen („Conclusion Quality“), die aus den Daten gezogen werden können. Dabei wird Qualität nicht als fester Zustand, sondern als kontinuierlicher Prozess verstanden, der Design, Daten und Analyse miteinander verbindet.
Methodische und ethische Herausforderungen
Digitale Verhaltensdaten eröffnen neue Forschungsperspektiven, aber sie fordern die Methodik heraus. Nicht alle Daten sind gleich zugänglich, gleich stabil oder gleich zuverlässig. Algorithmische Änderungen, API-Beschränkungen oder rechtliche Unsicherheiten beeinflussen, was erforschbar ist und was nicht. Entgegen früheren Zugangsmöglichkeiten zu DBD sprechen die Autor*innen vom „Post-API Age“, einer gesellschaftspolitischen Phase, in der der Zugang zu digitalen Plattformdaten zunehmend eingeschränkt ist, was Folgen für die Aktualität, Reproduzierbarkeit und Repräsentativität vieler Forschungsprojekte mit sich bringt.
Zudem sind ethische Fragen allgegenwärtig: Wann ist Einwilligung nötig? Wie kann Datenschutz gewährleistet werden? Und wie verhindert man, dass algorithmische Verzerrungen wissenschaftliche Ergebnisse verfälschen?
Insgesamt liefert der Sammelband neue Methodiken im Umgang mit digitalen Verhaltensdaten: Sie bringen Ordnung, wo bisher viele Einzellösungen nebeneinanderstanden. Die vorgeschlagenen Frameworks und Klassifikationen schaffen die Grundlage für eine integrierte Qualitätsdebatte in der digitalen Sozialforschung.
Wissenschaftliche Originalpublikation:
Weiß, B., Leitgöb, H., Wagner, C., (2025). Conceptualizing, Assessing, and Improving the Quality of Digital Behavioral Data. Social Science Computer Review, 43, https://doi.org/10.1177/08944393251367041
Dieser Beitrag wurde von Inke Ammermann und Dr. Sophie Zervos mit Unterstützung von ChatGPT 4.1 auf Grundlage der wissenschaftlichen Originalpublikation erstellt und von einem der Forschenden geprüft.
References
- Weiß, B., Leitgöb, H., & Wagner, C. (2025). Conceptualizing, Assessing, and Improving the Quality of Digital Behavioral Data. Social Science Computer Review, 43(5), 927-942. https://doi.org/10.1177/08944393251367041 (Original work published 2025)
- Daikeler J., Fröhling L., Sen I., Birkenmaier L., Gummer T., Schwalbach J., Silber H., Weiß B., Weller K., Lechner C. (2024). Assessing data quality in the age of digital social research: A systematic review. Social Science Computer Review, Article 08944393241245395. https://doi.org/10.1177/08944393241245395
- Schneck A., Przepiorka W. (2024). Meta-dominance analysis – A tool for the assessment of the quality of digital behavioural data. Social Science Computer Review, Article 08944393241261958. https://doi.org/10.1177/08944393241261958
- Antoun C., Wenz A. (2024). Nonparticipation bias in accelerometer-based studies and the use of propensity scores. Social Science Computer Review, Article 08944393241254463. https://doi.org/10.1177/08944393241254463
- Cernat A., Keusch F., Bach R. L., Pankowska P. K. (2024). Estimating measurement quality in digital trace data and surveys using the MultiTrait MultiMethod model. Social Science Computer Review, Article 08944393241254464. https://doi.org/10.1177/08944393241254464
- Wagner C., Stier S., Zens M., Radovanović D., Zens M., Breuer J., Weller K., Wagner C. (2025). What is digital behavioral data? (GESIS guides to digital behavioral data #1). GESIS – Leibniz Institute for the Social Sciences. https://doi.org/10.60762/ggdbd25001.1.0
Leave a Reply