Start der Erschließungsmaschine eMA
Schematische Darstellung des Erschließungssystems EMa
Was genau meint Inhaltserschließung?
Die Inhaltserschließung strukturiert die umfangreichen Bestände der DNB thematisch. Menge und Anteil digitaler Medienwerke nehmen stetig zu, etwa zwei Drittel der jährlich gesammelten Publikationen sind bereits digital. Aus diesem Grund setzt die DNB seit etwa zehn Jahren auch maschinelle Verfahren und KI ein. Die inhaltliche Erschließung der DNB richtet sich nach der Zuordnung der Medienwerke zu den Reihen der Deutschen Nationalbibliografie. Die Reihen umfassen jeweils unterschiedliche Medienwerke. So umfasst beispielsweise die Reihe A Monografien und Periodika des Verlagsbuchhandels, C Karten und die Reihe M Musikalien. Die Publikationen der Reihe A werden überwiegend intellektuell erschlossen. Die Reihe O, die alle Online-Publikationen umfasst, wird überwiegend maschinell erschlossen.
Die inhaltliche Erschließung umfasst die verbale und klassifikatorische Erschließung. Die verbale Erschließung leistet eine semantische Kontextualisierung und Vernetzung, indem die Publikationen mit den Schlagwörtern in der der GND verknüpft werden. Daneben führt die DNB eine klassifikatorische Erschließung mit der DDC durch. So werden alle Medienwerke in Sachgruppen wie „Philosophie“, „Medizin“ oder „Sport“ eingeordnet. Die hundert Sachgruppen der DNB basieren auf den obersten Klassen der DDC. Für einen Teil der Medienwerke wird außerdem eine sogenannte Tiefenerschließung mit vollständigen Notationen der DDC durchgeführt. Die DDC bietet vielfältige – nahezu unbegrenzte – Kombinationsmöglichkeiten. Dies ist der Grund dafür, dass die Vergabe vollständiger Notationen bisher ausschließlich intellektuell durchgeführt wird. Für die maschinellen Verfahren hat die DNB ein vereinfachtes Klassifikationsschema mit verkürzten DDC-Notationen entwickelt. Dieses Schema umfasst eine begrenzte Menge definierter Klassen pro Sachgruppe, die auch maschinell zugeordnet werden können.
Die modulare Architektur der EMa
Im April 2022 wurde nun ein neu entwickeltes System in Betrieb genommen: die „Erschließungsmaschine“ EMa. Die EMa wurde im Rahmen eines internen Projektes seit 2018 in der DNB entwickelt. Sie löst das bisherige Erschließungssystem der DNB ab. Auch die neue Software wird wieder in der eigenen IT-Infrastruktur der DNB betrieben. In Abbildung 1 ist die modulare Architektur der EMa schematisch dargestellt. Der große Vorteil des modularen Konzepts: Die EMa ist flexibel ausbaubar und kann mit geringem Aufwand stetig an den technologischen Fortschritt angepasst werden. Services oder Verfahren können einfach ausgetauscht oder erweitert, neue Funktionen jederzeit hinzugefügt werden.
Annif: ein Open Source-Toolkit der Finnischen Nationalbibliothek
Für die Klassifikation und Beschlagwortung verwendet die DNB nun KI-basierte Verfahren des Toolkits Annif. Dieser flexible Werkzeugkasten für Bibliotheksanwendungen wurde von der Finnischen Nationalbibliothek entwickelt. Annif enthält Verfahren für die Verarbeitung natürlicher Sprache und maschinelles Lernen und steht als Open Source-Software zur Verfügung. Die Verfahren wurden für die Erschließung von Publikationen ausgewählt, aufbereitet und erprobt. Sie sind sprachunabhängig. So kann jedes Fachvokabular im SKOS-Format für die Erschließung verwendet werden, beispielsweise auch die GND. Immer mehr Bibliotheken in Deutschland und weltweit setzen Annif ein oder interessieren sich für die Anwendung. Dadurch entstehen Communities, die kooperieren und auch neue Verfahren bereitstellen.
Abbildung: DNB
Der Prozessablauf der EMa
Der komplette Prozessablauf der maschinellen Erschließung ist automatisiert. Der produktive Betrieb wird über die EMa-Steuerung initialisiert, gesteuert und überwacht. Der Prozess startet täglich mit einer Liste der am Vortag neu eingetroffenen digitalen Medienwerke. Der Service zur Textbereitstellung holt die digitalen Medienwerke aus dem Textspeicher und die relevanten Metadaten aus dem Katalogsystem. Er erstellt die Textgrundlage für die nachfolgenden Analysen. Ein Service zur Textsprachenerkennung ermittelt zunächst die Textsprache. Deutsch- oder englischsprachige Texte werden anschließend zusammen mit ihren Metadaten über den Service zur Klassifizierung und Indexierung an den Service Annif übergeben. Dieser bietet vielfältige Möglichkeiten, die unterschiedlichen Arten der zu erschließenden Medienwerke differenziert zu verarbeiten.
Die maschinellen Erschließungsergebnisse – Sachgruppen, DDC-Kurznotationen oder GND-Schlagwörter – werden anschließend vom Katalogisierungs-Service in das Format Pica+ des Katalogsystems der DNB umgewandelt. Die EMa-Steuerung schreibt sie abschließend in den Metadatensatz des Medienwerkes (Abb. 2). Sie stehen sofort für die Suche im Portal der DNB zur Verfügung. Ob die Erschließungsdaten maschinell oder intellektuell ermittelt wurden, wird im Datensatz gekennzeichnet.
Abbildung: DNB
Welche Verfahren werden verwendet?
Aktuell sind Konfigurationen für folgende KI-Verfahren in der DNB im Einsatz:
- SVC: Ein lernendes Verfahren, eingesetzt für die DDC-Sachgruppenvergabe.
- Omikuji-Bonsai (ein baumbasiertes Verfahren): Ein lernendes Verfahren, eingesetzt für die Vergabe der DDC-Kurznotationen der Medizin.
- Omikuji-Bonsai und MLLM als Ensemble: Ein lernendes Verfahren und ein lexikalisches Verfahren werden kombiniert für die Beschlagwortung der Online-Publikationen und Hochschulschriften.
- Omikuji-Bonsai, Omikuji-Attention, stwfsa, fastText und MLLM als Ensemble: Zwei lernende Verfahren und drei lexikalische Verfahren werden kombiniert für die Beschlagwortung der Kinder- und Jugendliteratur mit einem Ausschnitt der GND.
Wie werden die Prozesse kontrolliert?
Täglich findet eine Kontrolle der technischen Abläufe statt. Außerdem werden fortlaufend Stichproben zur fachlichen Überprüfung durchgeführt. Die Erfahrungen zeigen: Die Qualität der Erschließungsresultate hängt von vielen verschiedenen Faktoren ab. Dazu zählen Umfang und Qualität der Trainingsdaten, Eignung der Algorithmen für die Anwendungsfälle, Passgenauigkeit der Modelle, Homogenität der zu erschließenden Medienwerke in einer Fallgruppe und anderes mehr. Für die lernenden Verfahren ist die Verfügbarkeit ausreichender und aktueller Trainingsdaten aus intellektuell erstellten Erschließungsdaten besonders wichtig. Auch die Aktualität und Vollständigkeit der GND ist von enormer Bedeutung für die Qualität der maschinellen Erschließung.
Wie geht es weiter?
Die DNB will die maschinelle Erschließung schrittweise ausbauen und auf weitere Publikationsgruppen ausweiten. Dafür werden die Komponenten der EMa kontinuierlich weiterentwickelt, verbessert und ergänzt. Welche neuen Methoden und technologischen Innovationen kann die DNB für ihre Anwendungsfälle nutzen? Und kann damit die Qualität der Erschließungsresultate weiter verbessert werden? Diese Fragen werden im Forschungsprojekt Automatisches Erschließungssystem untersucht. Die Beauftragte der Bundesregierung für Kultur und Medien fördert das Projekt der DNB im Rahmen der Nationalen KI-Strategie.
Das übergeordnete Ziel? Eine hohe Verlässlichkeit der Erschließungsdaten – ganz unabhängig davon, ob sie intellektuell oder maschinell erzeugt wurden.
Weitere Informationen zum Forschungsprojekt Automatisches Erschließungssystem erhalten Sie hier.
Letzte Änderung:
19.09.2023