Digitale Erschließungsverfahren ausbauen

Eine Person erschließt Medienwerke und schaut dabei hoch.

2.569.764 physische und digital zugreifbare Einheiten sind 2022 neu im Bestand der DNB. Bei der Erschließung gehen Mensch und Maschine Hand in Hand. (Foto: Stephan Jockel)

Inhaltserschließung: Mensch und Maschine im Duo

Die DNB erschließt Medienwerke mit intellektuellen und maschinellen Verfahren. Erschließung bedeutet, ein Medienwerk – ein Buch, eine Zeitschrift, eine Website, eine Karte oder Musikalie – durch Metadaten so zu beschreiben, dass es in einem Online-Katalog oder einer Datenbank gefunden wird. Die aus unterschiedlichen Quellen erzeugten Metadaten (Schlagwörter, Klassifikationen) sollen die Informationsrecherche optimal unterstützen.      

Die IE verfolgt das Ziel, die intellektuelle – also menschengemachte – und maschinelle Inhaltserschließung enger zu verzahnen. Die Erschließenden nehmen dabei die Rolle des „Human in the loop“ ein. Menschen haben umfassende Erfahrungen und erkennen Fehler. Maschinen erschließen schnell und bewältigen große Datenmengen. Die Kombination beider Fähigkeiten optimiert das System. Die Entwicklung und das Training von KI erfordert an vielen Stellen das Eingreifen der Bibliothekar*innen.

Dauerhafter Einsatz des „Digitalen Assistenten“ DA-3

Der Digitale Assistent DA-3 unterstützt seit dem Jahr 2020 die intellektuelle Erschließung. Die webbasierte Plattform aggregiert Daten aus verschiedenen Quellen und stellt sie als Vorschläge zur intellektuellen Inhaltserschließung bereit. Dabei können bereits vorhandene maschinelle Erschließungsdaten oder Daten aus anderen Bibliotheken effizient nachgenutzt werden. Nach erfolgreichen Entwicklungsarbeiten und Tests konnte der DA-3 2022 in den Routinebetrieb überführt werden.

Weitere Informationen zum Digitalen Assistenten DA-3 erhalten Sie auf der Website da-3.de.

Workshop zum Thema Computerunterstützte Inhaltserschließung

Im November 2022 war die DNB erneut Mitveranstalterin des Workshops „Computerunterstützte Inhaltserschließung“. Die Online-Veranstaltung diente dem Informationsaustausch zu neuen Erschließungswerkzeugen im deutschsprachigen Raum. Auf dem bereits zum sechsten Mal stattfindenden Workshop fand eine rege Diskussion über die Aufgaben des Erschließenden statt – und über die Nutzererwartungen an eine optimale Inhaltserschließung für adäquate Suchergebnisse. Der Anwendergemeinde sowie Interessierten steht seit 2022 erstmals eine eigene Website des BSZ für den DA-3 als Kommunikationsplattform zur Verfügung.

Qualitätssicherung maschineller Erschließungsdaten

Auch 2022 fand eine Qualitätssicherung für maschinell generierte Schlagwörter und Klassifikationen statt. Zunächst erzeugte die in der DNB neu entwickelte Erschließungsmaschine die entsprechenden Daten. Anschließend wurden diese im Rahmen von Stichproben intellektuell überprüft. Die menschlichen Bewertungen dienen dazu, die Algorithmen anzupassen und zu verbessern.

Lesen Sie mehr über die Erschließungsmaschine in einem Blogbeitrag.

Erfolgreicher Abschluss des Projekts GNDmul

Die notwendige Grundlage zum Erzeugen qualitätsvoller Erschließungsdaten? Gut gepflegte Normdaten! Das meint ein Wissensnetz aus Begriffen, die in thematischen Beziehungen zueinanderstehen. Dieser Redaktionsaufgabe haben sich die Kolleg*innen der IE ebenfalls gewidmet. Durch den erfolgreichen Abschluss des Projekts GND-mul Ende des Jahres 2022 wird nun auch die Fortführung der mehrsprachigen Normdatenvernetzung ein entscheidender Bestandteil der Normdatenpflege.

Im Rahmen des Projekts GND-mul wurden für die Präsentation und Nachnutzung von Konkordanzen (Verbindungen) zwischen der GND und anderen Wortschätzen (Thesauri) einheitliche Strukturen und Zugänge geschaffen. Mappings zu englischen, französischen, italienischen und spanischen Sachbegriffen, aber auch zu Fachthesauri wie STW, TheSoz oder MeSH ermöglichen die Vernetzung von Sammlungsbeständen, mehrsprachige Metasuchen oder Fremddatenübernahmen.

Zahlreiche virtuelle Treffen mit Vertreter*innen anderer Bibliotheken und Informationseinrichtungen, vor allem mit der Schweizerischen Nationalbibliothek, der Bibliothèque Nationale de France und der Biblioteca Nazionale Centrale di Firenze fanden im Laufe des Jahres statt.

KI in Bibliotheken: Maschinelle Erschließungsverfahren

Die dynamische Entwicklung digitaler Technologien eröffnet neue Möglichkeiten, Sammlungen auf- und auszubauen, sie zu erschließen und für Forschungsaufgaben zu nutzen. Mit der KI-Strategie unterstützt die Bundesregierung die Erforschung, Entwicklung und Anwendung neuartiger Technologien. Die DNB ist mit dem Forschungsprojekt „Automatisches Erschließungssystem“ an dieser Initiative beteiligt. Sie arbeitet daran, die Fortschritte der KI für die inhaltliche Erschließung gesammelter Online-Publikationen zu nutzen. Das Projekt wird von der Beauftragten der Bundesregierung für Kultur und Medien gefördert.

Welche aktuellen Entwicklungen aus den Bereichen Machine Learning und Natural Language Processing eignen sich dafür, die thematische Klassifikation deutschsprachiger Publikationen mit Schlagwörtern der GND zuverlässig durchzuführen? Das ist die zentrale Aufgabenstellung der Untersuchungen. Das Ziel: möglichst vollständige und genaue Erschließungsdaten zur inhaltlichen Beschreibung erhalten. Die maschinellen Methoden sollen erkennen, welche Themen, Orte oder Personen in einem Medienwerk behandelt werden – und sie sollen die Publikationen mit den zutreffenden GND-Schlagwörtern verknüpfen. Und das so präzise wie möglich.

Auch bei gleichlautenden Begriffen mit unterschiedlicher Bedeutung soll der semantische Kontext richtig erfasst und zugeordnet werden. In der GND stehen dafür mehr als eine Million Schlagwörter zur Verfügung. Und längst nicht alle relevanten Sachverhalte sind schon in der GND erfasst – auch das muss die Software erkennen können. Es werden also Methoden benötigt, mit denen ein solches hochkomplexes Klassifikationsproblem gelöst werden kann.

Technologieoffen und Open-Source-orientiert

Die DNB verwendet bereits seit etwa zehn Jahren maschinelle Verfahren für die inhaltliche Erschließung von Online-Publikationen. Das Erproben und Einführen neuerer Methoden der Verarbeitung und Analyse von Texten in natürlicher Sprache soll dazu dienen, die Qualität der Ergebnisse weiter zu verbessern. Im Projekt wird eine breite Vielfalt verschiedenster Verfahren – vorzugsweise Open Source Tools – untersucht. Geeignete Methoden will die DNB in ihre Erschließungsmaschine integrieren – und stellt der Community ihre Entwicklungsergebnisse auch wieder als Open Source Tools zur Verfügung.

KI als Chance und Herausforderung

Im Rahmen des Netzwerks maschinelle Verfahren in der Erschließung hat im November 2022 ein Workshop zu diesen Themen stattgefunden. Schwerpunkt in diesem Jahr war der Einsatz von KI und DH in Bibliotheken. Nach Frankfurt kamen Teilnehmende aus der Staatsbibliothek zu Berlin (Stiftung Preußischer Kulturbesitz), der Bayerischen Staatsbibliothek, der TIB, dem ZBW und der DNB. Sie tauschten sich über Projekte und Entwicklungen im Rahmen der maschinellen Aufbereitung und Analyse von Daten, Texten oder Bildern aus.

Weitere Informationen zu den Themen des Workshops finden Sie in unserem Blog.

Daten vernetzen: Ausbau der Dienste in der Deutschen Nationalbibliothek

Die DNB betreibt die Plattform Culturegraph. Das Ziel: Die Bestände der DNB und anderer Bibliotheken, Bibliotheksverbünde oder Kultureinrichtungen stärker vernetzen und mit Erschließungsdaten anreichern. Auf diese Weise sind die Bestände besser zugänglich. Seit 2021 kommt dieses neue maschinelle Verfahren zum Einsatz – mit großem Erfolg.

In Culturegraph sind Metadaten der Bibliotheksverbünde Deutschlands und Österreichs sowie der DNB enthalten. Mithilfe von Methoden der Datenanalyse werden Daten abgeglichen und miteinander vernetzt. So können Erschließungsdaten anderer Bibliotheken übertragen oder Informationen aus externen Quellen dazu genutzt werden, Datenbestände anzureichern. Die Bildung von Clustern von Titeln zu einem Werk bietet beispielsweise die Möglichkeit, eine Normdatenverknüpfung, die nur in einem Titeldatensatz des Werkclusters vorhanden ist, in alle Titeldatensätze des Clusters zu übernehmen. Analyse- und Vernetzungsergebnisse werden verbundübergreifend zur Verfügung gestellt.

300.000 Verknüpfungen zur GND generiert

Seit der initialen Einspielung von gut 1,4 Millionen Verknüpfungen im Jahr 2021 hat die DNB im Jahr 2022 etwa 300.000 weitere Verknüpfungen zu den Personennormdatensätzen der GND automatisiert in ihre Titeldatensätze übernommen. Seit Dezember 2022 läuft ein täglicher Workflow, der die Daten in Culturegraph tagesaktuell bündelt und täglich etwa 670 Verknüpfungen übernimmt. Auch die Bibliotheksverbünde erhalten regelmäßig Verknüpfungslisten für ihre Datensätze.

Schon seit längerer Zeit werden die Daten des Dienstes ORCID – unter Verwendung von Culturegraph – mit der GND vernetzt, wenn eine eindeutige Zuordnung der jeweiligen Personendatensätze möglich ist. ORCID-iD ist die eindeutige Identifikationsnummer für Forschende der gleichnamigen Plattform. ORCID-iD-Datensätze werden von den Forschenden selber angelegt. Sie können neben der ORCID-iD und dem Namen der Person weitere Informationen enthalten. Dazu zählen unter anderem: weitere Namensvarianten, Institutionen, die mit der Person in Beziehung stehen, externe Identifier anderer Organisationen und Publikationen.  

Neues Vorschlagsverfahren entwickelt

Seit Anfang 2022 erprobt die DNB ein maschinelles Verfahren, das Vorschläge für neue Personennormdatensätze der Gemeinsamen Normdatei generiert – und damit die Erschließung unterstützt. Das Verfahren verwendet die einem Titeldatensatz zugeordneten ORCiDs. Wenn für die Person noch kein GND-Datensatz existiert, wird auf den Dienst ORCiD zugegriffen und ein Vorschlagssatz für die GND aus dem ORCiD-Datensatz erstellt. Zusätzlich wird über die Angabe des Titels im Vorschlagssatz eine Verbindung zwischen Titeldatensatz und Vorschlagssatz hergestellt. So entstehen Vorschläge, die mit einem geringen manuellen Aufwand in hochwertige Personennormdatensätze umgewandelt werden können.

Wird bei der Erschließung eines Titels festgestellt, dass beispielsweise zu einem Autor ein Vorschlagsdatensatz existiert, kann dieser durch einen einzigen Tastenklick in einen Personennormdatensatz der GND umgewandelt werden. Der Titel im Katalog wird automatisch mit dem auf diese Weise neu entstandenen Datensatz der GND verknüpft. Zusätzlich wird die systematische Abarbeitung der Vorschläge durch die GND-Redaktion durch ein maschinell erzeugtes Ranking unterstützt.

Letzte Änderung: 19.09.2023

nach oben