Twitter archivieren?! Den Heuhaufen sammeln

One person is looking at a web code on a screen. Photo: Josephine Kreutzer

Wie archiviert man 3,5 Milliarden Tweets? Dieser Herausforderung stellte sich die Deutsche Nationalbibliothek im Jahr 2023. Zusammen mit ihrem Kooperationspartner Science Data Center for Literature hat sie im Rahmen eines Crowdsourcing-Projekts eine umfangreiche Sammlung deutschsprachiger Tweets angelegt. Denn Social Media sind Teil der hybriden Medienlandschaft Deutschlands – und in ihrer historischen Entwicklung auch Teil des digitalen Kulturerbes.


Durch den gesetzlichen Sammelauftrag der Deutschen Nationalbibliothek ist das Sammeln, Archivieren und Bereitstellen von deutschsprachigen – oder auf Deutschland bezogenen – Social-Media-Beiträgen demnach abgedeckt. Doch wenn Gedächtnisinstitutionen Social Media in ihre Sammlung aufnehmen, stehen sie zunächst vor einer grundlegenden Entscheidung: Was möchten sie sammeln – und wie?

Zur Auswahl stehen: ausgewählte Accounts und Themen oder Masse. Damit hängt meist zusammen, ob die Beiträge mit klassischen Webcrawling-Technologien über die Oberfläche einer Social-Media-Plattform oder ob strukturierte Rohdaten über eine Programmierschnittstelle gesammelt werden. Beides hat seine Berechtigung, beeinflusst aber die Möglichkeiten der Nutzung.


Code Symbolfoto: Eine Crowdsourcing-Initiative hat die Sammlung der Deutschen Nationalbibliothek um 220 Millionen Tweets erweitert Foto: Britta Woldering

Eine grundlegende Entscheidung: Nadel oder Heuhaufen?

Wird über die Weboberfläche gesammelt, bleibt das Look-and-Feel erhalten. Die archivierten Seiten sind für Menschen lesbar und anzuschauen und es werden für die Beschäftigung mit der Sammlung eher die einzelnen Seiten und visuelle Aspekte betrachtet und beforscht. Wenn hingegen strukturierte Daten gesammelt werden, geht das Look-and-Feel der Weboberfläche mitsamt den Interaktionsmöglichkeiten und der visuellen Gestaltung verloren. Die strukturierten Daten eignen sich dafür besser für maschinelle Analyseverfahren wie Text and Data Mining.

Ein weiterer Aspekt ist der Umfang. Bei der Sammlung einer kuratierten Auswahl entscheiden sich Institutionen meist für das Webcrawling. Soll hingegen eine große Menge an Beiträgen gesammelt werden, sind es in der Regel die strukturierten Daten, die über eine Schnittstelle erreichbar sind. Am Anfang einer Social-Media-Sammlung steht also die Entscheidung für die Nadel oder den Heuhaufen.

Twitter und der Forschungsboom

Die „Archivierung des Web“ ist der DNB nicht fremd: Bereits seit 2012 sammelt die Deutsche Nationalbibliothek Webauftritte in ihrem Webarchiv. Social Media sind jedoch nicht zuletzt aufgrund ihrer medientechnischen Besonderheiten bislang nicht gesammelt worden. Dabei sind Social Media Datenquelle und Gegenstand für unterschiedliche Forschungsansätze in den Geistes- und Sozialwissenschaften, in der Informatik und in den Natur- und Lebenswissenschaften.

Beispielhaft zeigt sich dies an der Plattform Twitter, die sich bis zur Übernahme durch ein Investorenkonsortium um Elon Musk durch flexible Programmierschnittstellen und Zugriffsmöglichkeiten auf das Twitter-Archiv ausgezeichnet hat. Diese Zugänglichkeit hat bis Anfang 2023 zu einem Boom von Forschungsarbeiten geführt und die Erstellung umfangreicher Sammlungen zu Forschungszwecken ermöglicht. Inzwischen ist der Zugang zum Archiv der Plattform weitgehend kostenpflichtig und für Forschung und Archivierung de facto geschlossen. Die turbulenten Entwicklungen dieser und früherer Plattformen zeigen außerdem, dass die Plattformen selbst keine stabilen Institutionen sind.

Fokus auf deutschsprachige Tweets

Angesichts der Dringlichkeit und Notwendigkeit, eine möglichst breite – dabei im Sinne des Sammelauftrags begrenzte – Auswahl von Tweets gut operationalisierbar zu machen, entschied sich die DNB dazu, sich auf deutschsprachige Tweets zu fokussieren. Ein Nachteil ist, dass damit zum Beispiel englischsprachige Tweets deutscher Politiker*innen nicht abgedeckt sind. Trotz dieser Beschränkung auf die deutsche Sprache handelte es sich immer noch um ein Konvolut von rund 3,5 Milliarden Tweets, die archiviert werden sollten.

Um deutschsprachige Tweets aus dem Twitter-Archiv zu filtern, wurde die von Twitter vergebene Sprachcodierung genutzt, die sich durch Stichproben und Analysen in der Vorbereitung als ausreichend zuverlässig erwiesen hatte.

Aufruf zur Spende: Download-Quoten gesucht

Twitter bot Schnittstellen mit unterschiedlichen Zugriffsmöglichkeiten auf das Twitter-Archiv an. Der umfangreichste kostenfreie Zugang war der Academic Research Access, der für Forschungsprojekte beantragt werden konnte. Damit war es den Nutzenden möglich, 10 Mio. Tweets pro Monat aus dem Archiv herunterzuladen. Die Kernidee des Projektes? Möglichst viele Forschende mit Academic Research Access gewinnen, die bereit sind, einen Teil ihrer Download-Quote für die Initiative zu spenden. Die Rechnung war: Mit einem Account würde die Archivierung aller deutschsprachigen Tweets rund 30 Jahre dauern, mit 350 Accounts weniger als einen Monat.

Crowdsourcing sorgt für 220 Millionen Tweets

Die DNB startete am 20. Februar 2023 den Aufruf, sich am Aufbau eines deutschsprachigen Twitter-Archivs zu beteiligen. Die Resonanz war sehr hoch und positiv, die konkrete Beteiligung bewegte sich allerdings im niedrigen zweistelligen Bereich. Die Crowdsourcing-Aktion lief bis zur Schließung der Academic-Research-Access-Schnittstelle Mitte April. Gesammelt wurden die Tweets mit dem Sprachcode „deutsch“. Neben den Tweet-Texten wurden umfangreiche Metadaten, die Twitter mitliefert, gespeichert. Dazu zählen zum Beispiel die Anzahl von Retweets und Likes, die Conversation-IDs und die Hashtags.

Das in der Crowdsourcing-Initiative gesammelte Twitter-Datenset umfasst einen Zeitraum, in welchem Twitter noch keine Möglichkeit zum Hochladen von Bildern oder Videos bot. Die DNB hat rund 220 Mio. Tweets von rund 5,8 Mio. Accounts gesammelt. Das umfasst den Zeitraum von März 2006 (dem Beginn von Twitter) bis einschließlich Juni 2011. Die Sammlung ist 640 GB groß.

Nutzung vor Ort möglich

Die in der Crowdsourcing-Initiative gesammelten Tweets wurden durch ein großes Forschungskorpus deutschsprachiger Tweets ergänzt. Dieses deckt den Zeitraum 2014 bis 2023 ab und umfasst rund 2,8 Milliarden Tweets. Dadurch ist eine umfangreiche Sammlung deutschsprachiger Tweets bei der Deutschen Nationalbibliothek archiviert, mit einer Lücke für den Zeitraum Juli 2011 bis Anfang 2014.

Da es sich bei der Twitter-Sammlung um Daten handelt, die dem Urheberrecht und dem Datenschutz unterliegen, ist die Nutzung der Sammlung nur vor Ort in den Räumlichkeiten der Deutschen Nationalbibliothek in Leipzig und Frankfurt am Main möglich. Für das Arbeiten mit solchen Daten-Korpora ist neben bestimmten technischen Bereitstellungsumgebungen und Werkzeugen, zum Beispiel für Datenanalysen und zur Visualisierung, auch die Kompetenz der Nutzenden im Umgang mit strukturierten Rohdaten Voraussetzung.

Twitter-Sammlung im Einsatz

Die Twitter-Sammlung wurde erstmals im Rahmen eines Datasprints und des Digital-Humanities-Calls 2024 der Deutschen Nationalbibliothek angeboten, bei welchen sich Forschende mit konkreten Projekten bewerben können. Perspektivisch ist auch eine individuelle Nutzung auf Antrag außerhalb der Calls denkbar.

Mit dem Heuhaufen deutschsprachiger Tweets schlägt die Deutsche Nationalbibliothek einen neuen Weg in ihrem Angebot an die Nutzenden ein: Social Media als Teil der Publikationswelt und als wichtige Facette der Gegenwart.

Letzte Änderung: 04.06.2024

nach oben