CORAL: Gemeinsame Forschung an Sprachmodellen

Im Oktober 2024 ist das Forschungsprojekt CORAL (Constrained Retrieval-Augmented Language Models) gestartet. Es wird vom BMBF gefördert. Gemeinsam mit den Universitäten Leipzig und Kassel sowie der Hochschule Anhalt erforscht die DNB, wie man Sprachmodelle mit Textkorpora trainieren kann, die bestimmten Einschränkungen (Constraints) unterliegen – zum Beispiel dem Urheberrecht. Diese Einschränkungen betreffen einen Großteil der Sammlung der Deutschen Nationalbibliothek.

Das Projekt untersucht, ob und wie große Sprachmodelle mit abgeleiteten Textformaten trainiert werden können – also Texten mit reduziertem Informationsgehalt, aus denen der ursprüngliche Text nicht mehr rekonstruiert werden kann. Aussagen in generierten Texten sollen darüber hinaus durch die Angabe von Quellen transparent nachvollziehbar sein. CORAL trägt so dazu bei, die Arbeit mit Sprachmodellen langfristig rechtlich sicherer und qualitativ besser zu machen.

Forschen mit Twitter: Tagung und Datasprint

Eine weitere Kooperation mit der Forschung bezog sich auf Twitter. Soziale Medien sind Datenquelle und Gegenstand für unterschiedliche Forschungsansätze verschiedener Disziplinen. Auch deshalb hatte es sich die DNB 2023 zur Aufgabe gemacht, das deutschsprachige Twitter (inzwischen „X“) zu archivieren.

Eine Person erklärt gestikulierend eine Grafik auf einem Rechner, andere hören ihr zu Foto: DNB, Stephan Jockel


Im März 2024 lud die DNB zur ersten Social-Media-Tagung in Deutschland ein, an der sowohl Bibliotheken und Archive als auch Forschende teilnahmen. Im Anschluss an die Tagung gab es einen zweitägigen Twitter-Datasprint. Wissenschaftler*innen konnten hier mit Twitter-Daten an ihren Forschungsfragen arbeiten. Dafür wurden drei umfangreiche und einzigartige Daten-Korpora zur Verfügung gestellt.

Neue Forschungsvernetzung: EHRI (European Holocaust Research Infrastructure)

Seit 2022 kooperiert das Deutsche Exilarchiv mit der EHRI (European Holocaust Research Infrastructure). EHRI zielt darauf ab, die Holocaust-Forschung zu unterstützen, die Forschungsgemeinschaft zu vernetzen und den Zugang zu Archivbeständen und Spitzenforschung zu ermöglichen. Im November 2024 veranstaltete das Exilarchiv gemeinsam mit dem Zentrum für Holocaust-Studien am Leibniz-Institut für Zeitgeschichte das EHRI-Seminar „Holocaust and Exile. Approaches, Sources, Methodologies“. An dem Seminar nahmen dreizehn Wissenschaftler*innen aus Deutschland, Israel, Italien, Österreich, Portugal und Serbien teil.

Während der viertägigen Veranstaltung konnten die Teilnehmenden mehr über die Ansätze und Methoden der Exilforschung erfahren. Und sie erhielten einen detaillierten Einblick in die Arbeit des Deutschen Exilarchivs. Das Exilarchiv bot den Teilnehmenden Führungen durch seine Ausstellungen sowie einen Stadtrundgang zur „Kinderemigration aus Frankfurt“ an. Im Rahmen eines Hands-On- Workshops arbeiteten die Forschenden mit Archivalien aus dem Exilarchiv zum Thema "Letzte Nachrichten ins Exil" und beschäftigten sich auch mit dem Kooperationsprojekt mit den Arolsen Archives zur Erfassung der Ausbürgerungskartei.

Auf dem Weg zu einem Datenkompetenzzentrum: HERMES

Die DNB lernt nicht nur von anderen Kultureinrichtungen – sondern auch von und mit der Wissenschaft. Seit November 2023 beteiligt sie sich an dem Verbundprojekt HERMES. Es wird vom Bundesministerium für Bildung und Forschung (BMBF) gefördert. HERMES steht für Humanities Education in Research, Data, and Methods. Ziel ist der Aufbau eines Datenkompetenzzentrums für die Geistes- und Kulturwissenschaften. 2024 nahm das Projekt Fahrt auf: In einer Transferwerkstatt kommen jetzt Studierende und Mitarbeitende von Galerien, Bibliotheken, Archiven und Museen (international: GLAM) zusammen. Sie sprechen darüber, wie der GLAM-Bereich Forschungsvorhaben in den Digital Humanities in Zukunft besser unterstützen kann und welche digitalen Kompetenzen und Infrastrukturen dafür notwendig sind. Dabei geht es auch um neue Berufsbilder, die der digitale Wandel mit sich bringt – z. B. Data Steward, Data Librarian oder Embedded Librarian.

The view removeBlockElements for document type Announcement was not found.

"Die DNB vernetzt sich über HERMES mit anderen GLAM-Einrichtungen und Forschungsinitiativen und trägt zur Klärung bei, welche Fähigkeiten das zukünftige Personal für die Unterstützung der Digitalen Geisteswissenschaften benötigt, welche Auswirkungen auf die Ausbildungen im GLAM-Sektor sich daraus ergeben und welche Rahmenbedingungen von der Politik geändert werden müssten."

Dr. Friedrich Quaasdorf

Portraitfoto von Dr. Friedrich Quaasdorf Foto: Markus Farnung

Neues vom Standardisierungsausschuss

Neben der Zusammenarbeit in Forschungsnetzwerken kooperiert die DNB auch im Bereich der Standardisierung mit anderen Organisationen und Institutionen. So arbeitet sie im Standardisierungsausschuss (STA) gemeinsam mit Partner*innen aus Kultur und Wissenschaft an einheitlichen Standards für die Erschließung, Schnittstellen und Formate, um eine bessere Vernetzung zu ermöglichen. Im November 2024 wurde die Geschäftsordnung des STA aktualisiert. Mit dem STA-Community-Forum gibt es jetzt außerdem einen virtuellen Kooperationsraum, in dem sich STA-Gruppen und Communities außerhalb des STA austauschen können.

Weiterhin hat die Dokumentationsplattform des STA im vergangenen Jahr eine Redaktionsumgebung erhalten. Sie erleichtert es den Fach- und Arbeitsgruppen, Änderungen und Ergänzungen der Erfassungsregeln zu erarbeiten und untereinander abzustimmen. Die abgestimmten Änderungen werden in halbjährlichen Releases auf der STA-Plattform veröffentlicht.

GND und Europäischer Thesaurus für Internationale Beziehungen und Länderkunde

Auch die Gemeinsame Normdatei profitierte 2024 von einer Kooperation. Die Einträge des mehrsprachigen Europäischen Thesaurus für Internationale Beziehungen und Länderkunde (ETIRAS) sind jetzt mit der Gemeinsamen Normdatei (GND) verbunden. Expert*innen für Terminologie des fiv (Fachinformationsverbund Internationale Beziehungen und Länderkunde) haben hierfür ein Mapping zur GND erstellt. Das Datenset umfasst ca. 8.000 Mappings politikwissenschaftlich relevanter Begriffe. Es wird gemeinsam von der DNB und den fiv-Vertretenden, insbesondere dem Deutsch-Französischen Institut und der Stiftung Wissenschaft und Politik, gemeinsam weiter gepflegt.

Letzte Änderung: 18.06.2025

nach oben