Archivieren ist nicht billig! Erfahrungen aus einem interdisziplinären DFG-Projekt zur Erstellung und Nutzung von Webarchiven aus politikwissenschaftlicher Perspektive

Daten von Websites und Social-Media-Plattformen sind aus der politikwissenschaftlichen Forschung nicht mehr wegzudenken. Die wissenschaftliche Debatte zu ihrer Nutzung konzentriert sich dabei überwiegend auf die Probleme der Auswertung der exorbitant gestiegenen Datenmengen. Weniger Beachtung findet die Herausforderung der Fluidität von webbasierten Daten und die hieraus folgenden Probleme ihrer Dokumentation bzw. Archivierung. Vor diesem Hintergrund diskutiert der Blog-Beitrag die Erfahrungen eines interdisziplinären DFG-Projekts (unter Beteiligung der Bibliothekswissenschaften, der Digital Humanities und der Politikwissenschaften) zum Aufbau und zur Nutzung von Webarchiven. Dabei geht es nicht um konkrete Lösungsoptionen, sondern vielmehr sollen die vielfältigen und komplexen Probleme aufgezeigt werden, die internetbasierte Daten auf der Ebene der Datenarchivierung und Archivnutzung mit sich bringen und die von Politikwissenschaftlerinnen und Politikwissenschaftlern zunehmend neue Kompetenzen erfordern, und zwar sowohl bei der Nutzung bestehender Webarchive als auch bei der Durchführung und Archivierung eigener fallstudienbezogener Event-Crawls.

Political science research would be inconceivable without data from websites and social media platforms. The scholarly debate on their use focuses predominantly on the problems of evaluating the exorbitantly increased volumes of data. Less attention is paid to the challenge of the fluidity of web-based data and the resulting problems of their documentation and archiving. Against this background, this blog post discusses the experiences of an interdisciplinary DFG project (with the participation of library science, digital humanities, and political science) on the construction and use of web archives. The focus is not on concrete solution options, but rather on highlighting the diverse and complex problems that Internet-based data pose at the level of data archiving and archive use, which increasingly require new skills from political scientists, both in using existing web archives and in conducting and archiving their own case study-related event crawls.

DOI: 10.34879/gesisblog.2022.58


Daten von Websites und Social-Media-Plattformen sind aus der politikwissenschaftlichen Forschung nicht mehr wegzudenken. Während die Probleme der Auswertung der exorbitant gestiegenen Datenmengen intensiv im Fach diskutiert werden 1, finden die durch die Fluidität der Daten entstehenden Herausforderungen der Datendokumentation bzw. der Datenarchivierung weitaus weniger Beachtung. Fluidität beinhaltet hierbei sowohl das komplette Verschwinden von Daten aufgrund der begrenzten „Lebensdauer“ von Websites als auch deren permanente Veränderung. Besonders deutlich zeigt sich die Unterschätzung dieser Herausforderung an der immer noch verbreiteten Zitationspraxis von Internetquellen durch URL und Aufrufdatum, eine Praxis, die in anderen Disziplinen schon vor zwei Jahrzehnten problematisiert wurde.2

Eine Lösung dieses Problems könnten Webarchive darstellen 3, welche die veränderlichen Inhalte des Webs dauerhaft für die Forschung konservieren 4. Das prominenteste Beispiel hierfür ist das 1996 gegründete Internet-Archive (https://archive.org/), das mittels seiner browserbasierten Wayback-Machine zuvor archivierte Internet-Inhalte dauerhaft abrufbar und Veränderungen zwischen Zeitschnitten erfassbar macht. Aber auch Bibliotheken und andere Gedächtnisinstitutionen haben die Archivierung von Webinhalten als Aufgabe identifiziert. Neben solchen allgemeinen Webarchiven werden zunehmend auch themenspezifische Webarchive erstellt, die sich entweder auf Daten einzelner Institutionen beziehen oder im Rahmen sogenannter Event-Crawls erstellt werden.

Während sich zu Webarchiven und deren Nutzung in der bibliothekswissenschaftlichen Forschung eine breite Diskussion findet 5, werden diese in den Politikwissenschaften bisher kaum für die Forschung verwendet. Eine exemplarische Durchsicht der Politischen Vierteljahresschrift (PVS) aus dem Jahr 2020 etwa zeigt, dass keine einzige (!) Referenz Webinhalte über ein Webarchiv (im hier dargelegten Sinne) zitiert. Ein Grund hierfür kann in den Herausforderungen der Erstellung und Nutzung von Webarchiven gesehen werden, die deshalb im Zentrum des DFG-Projekts „Methoden der Digital Humanities in Anwendung für den Aufbau und die Nutzung von Webarchiven“ stehen, das die Bayerische Staatsbibliothek und die Universität Passau (Jean-Monnet-Lehrstuhl für Europäische Politik und Lehrstuhl für Digital Humanities) durchführen.

Kern dieses Projekts ist die exemplarische Erstellung eines Event-Crawl-basierten Webarchivs zu den Europawahlen 2019, welches für Ansätze des Close-, Distant- und Blended-Reading zugänglich ist.6 Dabei wurde darauf geachtet, dass die gecrawlten Websites unterschiedliche „Typen“ und „Professionalisierungsgrade“ abdecken, d.h. Medienwebsites, Parteienwebsites, aber auch Websites einzelner Kandidat*innen und ihre Social-Media-Kanäle. Diese unterschiedlichen Typen von webbasierten Daten stellen standardisierte Webarchivierungstools vor verschiedene Herausforderungen. So verursachen beispielsweise klassische Websites durch ihre unterschiedliche Struktur und die unterschiedliche Einbettung verschiedener externer Inhalte (wie Videos oder Social-Media-Seiten) Probleme in der Archivierung. Relativ schnell zeigte sich in dem DFG-Projekt, dass ein automatisierter Bestandsaufbau im Harvesting-Prozess aufgrund der Diversität des Korpus und der technischen Herausforderungen, welche die verschiedenen Typen webbasierter Daten mit sich bringen, zu fehleranfällig gewesen wäre.7 Deshalb erfolgte ein bibliothekarischer Bestandsaufbau mit selektivem Web Harvesting, bei dem die Daten zur Qualitätssicherung von der Bayerischen Staatsbibliothek nochmals überprüft wurden. Dieses Vorgehen ermöglichte die Durchführung eines Event-Crawls mit einem sehr heterogenen Korpus bei hoher Qualität und geringer Fehlerquote, allerdings musste hierdurch die ursprünglich angedachte Zahl an Websites und Zeitschnitten erheblich reduziert werden.

Für die Datenarchivierung wurde das WARC-Format (Web Archive-Format) verwendet, das sich in den letzten Jahren zum Standardformat der Webarchivierung entwickelt hat.8 Dieses speichert neben den Inhalten auch Metadaten wie URL und Datum, was die Vergleichbarkeit zwischen verschiedenen Zeitschnitten ermöglicht. Ein Problem des WARC-Formats liegt darin, dass dieses für die weitere Analyse nur begrenzt zugänglich ist, weshalb bestehende Webarchive die Daten in aufbereiteten Formaten wie CSV oder JSON zur Verfügung stellen. Für die Erstellung Event-Crawl-basierter Webarchive muss dieser Prozess selbst durchgeführt werden. Im Rahmen des DFG-Projekts wurde daher aus dem Bereich der Digital Humanities eigens das Datenextraktionstool warc2corpus entwickelt.9 mit dem die im WARC-Format gespeicherten Daten aufbereitet wurden. Konkret getestet wurde dies im Rahmen einer Topic-Modelling-Analyse zu den zentralen Themenfeldern des Europawahl-Korpus. Die Analyse hatte hierbei aufgrund des begrenzten Korpus allerdings eher den Charakter eines technischen Pretests.  

Für die Nutzung von Webarchiven in den Politikwissenschaften hat sich gezeigt, dass die technischen Herausforderungen keineswegs trivial sind und die Forschung stark beeinflussen können. Vor allem wurde deutlich, dass ein qualitätsgesicherter Bestandsaufbau personalintensiv ist. Dies bedeutet aber auch, dass ein solcher immer nur ein begrenztes Datenvolumen erfassen kann und somit weniger für computergestützte Distant-Reading-Verfahren, sondern eher für klassische, auf Close-Reading angelegte Forschungsdesigns geeignet ist. Umfassende (automatisiert) erstellte Webarchive, bei denen Distant-Reading-Verfahren ihre Vorteile ausspielen können, haben hingegen bei Qualität und Vollständigkeit Defizite, insbesondere wenn die archivierten Daten von heterogenen klassischen Websites stammen. Anders sieht es zwar bei Archiven einzelner „Anbieter“ oder Plattformen (z.B. Twitter-Daten) aus, die für die Forschung genutzt werden können. Allerdings blenden diese von vornherein große Teile der „Netzwirklichkeit“ aus. Für die Forschung wäre es daher wichtig, auch größere Datenmengen von unterschiedlichen Plattformen und klassischen Websites qualitätsgesichert für die Forschungsarbeit archivieren zu können. Neben künftigen technischen Lösungen, könnte hierbei die Verknüpfung unterschiedlicher qualitätsgesicherter Event-Crawl-basierter Webarchive eine Lösungsoption darstellen, wie sie etwa das GESIS-Archiv (https://www.gesis.org/institut/abteilungen/data-services-for-the-social-sciences) durch die Möglichkeit zur Einstellung von einzelnen elektronischen Archivkorpora eröffnet. Für die effektive Erstellung und Nutzung solcher Webarchive wäre neben der Etablierung einheitlicher technischer Standards aber auch eine größere Sensibilisierung in den Politikwissenschaften für Fragen der Archivierung von Webinhalten unverzichtbar. Hier ist die Diskussion noch relativ am Anfang!


References

  1. Vgl. u.a. Knecht, S./Debre, M. J.(2018): Die „digitale IO“: Chancen und Risiken von Online-Daten für die Forschung zu Internationalen Organisationen, in: Zeitschrift für Internationale Beziehungen, 25 (1) S. 175–188 (doi.org/10.5771/0946-7165-2018-1-175).
  2. Vgl. Lawrence, S./Pennock, D.M./Flake, G.W. et al. (2001): Persistence of Web References in Scientific Research, in:  Computer 34 (2) S. 26-31 (doi.org/10.1109/2.901164).
  3. Costa, M./ Gomes, D./Silva, M.J: (2018): The Evolution of Web Archiving, in: International Journal on Digital Libraries 18 (3), S. 191-205 (doi.org/10.1007/s00799-016-0171-9).
  4. Zu unterscheiden hiervon sind Online-Archive klassischer analoger Dokumente, bei denen es nicht um die Archivierung und Konservierung fluider Internet-Daten geht.
  5. Vgl. Beinert, T./Schoger, A. (2015): Vernachlässigte Pflicht oder Sammlung aus Leidenschaft? Zum Stand der Webarchivierung in deutschen Bibliotheken, in: Zeitschrift für Bibliothekswesen und Bibliographie 62 (3-4), S. 172–83 (doi.org/10.3196/1864295015623459).
  6. Zu den Ansätzen des Distant-, Close- und Blended-Reading vgl. Lemke, M./Niekler, A./Schaal, G./ Wiedemann, G. (2015): Content Analysis between Quality and Quantity: Fulfilling Blended-Reading Requirements for the Social Sciences with a Scalable Text Mining Infrastructure. Datenbank Spektrum 15 (1) S. 7-14 (doi.org/10.1007/s13222-014-0174-x).
  7. Zum Harvesting-Prozess und den Herausforderungen und Grenzen von automatisiertem Web Harvesting vgl. Liegmann, H. (2008): Web-Harvesting zur Langzeiterhaltung von Internet-Dokumenten, in: Neuroth, H./Liegmann, H./Oßwald, A. et al. (Hrsg.) : Eine kleine Enzyklopädie der digitalen Langzeitarchivierung. Version 1.2., Göttingen, S. 15/42-15/51; Jacob L./Thomas K.T. (2021): Automated Organic Web Harvesting on Web Data for Analytics, in: Shukla S./Unal, A. /Varghese Kureethara J. et al. (Hrsg.): Data Science and Security, Singapore, S. 131-141 (doi.org/10.1007/978-981-16-4486-3_14).
  8. Oury, C./Blumenthal, K.-R./Peyrard, S. (2016): Digital Preservation Metadata Practice for Web Archives, in: Dappert, A./Squire Guenther, R./Peyrard S. (Hrsg.): Digital Preservation Metadata for Practitioners, Cham, S. 59-82, hier S. 63 f.
  9. Eine Testversion findet sich unter https://github.com/sepastian/warc2corpus.

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.