Wie das TIB|AV-Portal Englisch lernte – Eine englische Übersetzung für Sachbegriffe der AV-Portal Wissensbasis

Die deutschsprachigen Videos des TIB|AV-Portals werden mit GND-Sachbegriffen aus Naturwissenschaft und Technik automatisch verschlagwortet. Neben den deutschsprachigen Videos enthält das AV-Portal auch englischsprachige Videos. Für die automatische Verschlagwortung der englischsprachigen Videos fehlte allerdings ein englisches Indexierungsvokabular. Die GND enthielt zu den in der AV-Portal Wissensbasis verwendeten Sachbegriffen (ca. 63.000 Sachbegriffe) nur sehr wenige englische Bezeichner.1 Die missliebige Konsequenz davon war, dass keine segmentbasierte Suche innerhalb der englischsprachigen Videos mit Hilfe von Sachbegriffen möglich war.

Wie konnten wir also englische Bezeichner für die GND-Sachbegriffe der AV-Portal Wissensbasis ermitteln?

Der Lösungsansatz bestand darin, die englischen Bezeichner über ein Mapping der GND-Sachbegriffe auf andere Datensätze zu gewinnen. Zu diesen Datensätzen zählen die DBpedia, LCSH (Library of Congress Subject Headings), MACS-Ergebnisse (Multi Lingual Access to Subjects) sowie der Thesaurus für Technik und Management des WTI-Frankfurt, der von der TIB lizenziert wurde. Das Mapping wurde von unserem Projektpartner, dem Hasso-Plattner-Institut für Softwaresystemtechnik, durchgeführt. Bei den verschiedenen Mappingstrategien geht es stets darum, dass der deutsche GND-Sachbegriff in einem anderen Datensatz „nachgeschlagen“ werden muss, der eine englische Übersetzung des Begriffs enthält. Der Bezeichner der englischen Übersetzung kann dann für den GND-Sachbegriff extrahiert werden.

Ich möchte dieses Verfahren einmal anhand des Mappings der GND-Sachbegriffe auf die DBpedia illustrieren. Die DBpedia enthält strukturierte Informationen aus der Wikipedia wie Infoboxen, Tabellen und Weblinks, die als Linked Data zur Verfügung stehen. Bei dem Mapping auf die DBpedia werden zunächst die Haupt- und Alternativbezeichner des GND-Sachbegriffs (z.B. Advent (Vorweihnachtszeit)) in einem Lexikon nachgeschlagen, das die Haupt- und Alternativbezeichner der deutschen DBpedia-Entitäten enthält. Meist werden dabei mehrere DBpedia-Kandidaten gefunden, auf die die Abbildung möglich ist, also etwa: Advent (Vorweihnachtszeit), Advent (Computer), Advent (Band), Advent (Herausgeber). In dem Fall muss eine Auflösung der Mehrdeutigkeit (Disambiguierung) erfolgen. Der Disambiguierungsalgorithmus gleicht in einer Kookkurrenzanalyse die Kontextinformationen des GND-Sachbegriffs mit den Kontextinformationen der DBpedia-Kandidaten ab. Vereinfach gesagt, gewinnt derjenige DBpedia-Kandidat das Mapping, dessen Kontextinformation die größte Übereinstimmung zur Kontextinformation des GND-Sachbegriffs aufweist. In unserem Beispiel ist das die deutsche DBpedia-Entität Advent (Vorweihnachtszeit). Im nächsten Schritt erfolgt über die Interlanguage Links die Abbildung der deutschen DBpedia-Entität Advent auf die englische DBpedia-Entität advent. Damit kann der Bezeichner ‚advent’ der englischen DBpedia-Entität extrahiert werden, und der GND-Sachbegriff ist erfolgreich ins Englische „übersetzt“ worden.

Am Ende konnte über die verschiedenen Mappingstrategien für ca. 35.000 (55%) GND-Sachbegriffe der AV-Portal Wissensbasis (mindestens) ein englischer Bezeichner ermittelt werden. Die gewonnenen englischen Bezeichner werden zur Verschlagwortung der englischsprachigen Videos verwendet. Für ca. 11.700 GND-Sachbegriffe (19%) der AV-Portal Wissensbasis konnte zwar kein englischer Bezeichner ermittelt, aber immerhin eine Assoziation zu einem Oberbegriff hergestellt werden, der einen englischen Bezeichner hat. Diese Assoziation wird für die Suche genutzt: Sucht man nach einem „übersetztem“ Oberbegriff, z.B. nach waste heat (Abwärme), liefert das Programm auch Ergebnisse zum nicht-übersetzbaren Unterbegriff Industrieabwärme zurück.

Englische Ansicht des TIB|AV-Portals zeigt ins Englische übersetzte GND-Sachbegriffe auf der rechten Seite
Die englische Ansicht des TIB|AV-Portals zeigt ins Englische übersetzte GND-Sachbegriffe auf der rechten Seite.

Das TIB|AV-Portal verfügt sowohl über eine deutsche als auch über eine englische Ansicht. In der deutschen Ansicht werden die deutschen Bezeichner der GND-Sachbegriffe angezeigt, in der englischen Ansicht entsprechend die englischen Bezeichner (siehe Abbildung). Es kann textuell nach deutschen wie auch englischen Sachbegriffen gesucht werden, und auch die inhaltsbasierten Filterfacetten liegen zweisprachig vor.

Mit Hilfe des Mappings konnte ein Zusatznutzen für die Disambiguierung der Named Entity Recognition (automatischen Verschlagwortung) erzielt werden. Es wurden für die GND-Sachbegriffe nicht nur englische Bezeichner aus der DBpedia extrahiert, sondern auch Kontextinformationen. Dies verbessert den Disambiguierungsalgorithmus der Named Entity Recognition erheblich, also wenn es z.B. darum geht, dass dem analysierten Textbestandteil ‚Winde’ entweder der GND-Sachbegriff Wind (Luftbewegung) oder Winde (Mechanik) zugeordnet werden soll. Je mehr Kontextinformationen für die GND-Sachbegriffe vorliegen, desto besser verläuft die Auflösung solcher Mehrdeutigkeiten.

Zum Thema dieses Blogbeitrages habe ich auf dem 103. Deutschen Bibliothekartag in Bremen einen Vortrag gehalten: Englischsprachige Erweiterung des AV-Portals. Ein GND-DBpedia-Mapping zur Gewinnung eines englischen Begriffssystems.

 

... ist Product Owner des TIB AV-Portals // ... is product owner of the TIB AV Portal

Notes:
1. Zum damaligen Zeitpunkt waren die MACS-Ergebnisse noch nicht im GND-Dump veröffentlicht. Wir konnten in Absprache mit der Deutschen Nationalbibliothek diese Daten vorab mit Hilfe der WinIBW beziehen und für das Mapping nutzen. Die MACS-Ergebnisse liefern für 22% der Sachbegriffe der AV-Portal Wissensbasis englische Bezeichner, die zu wesentlichen Teilen aber bereits über die LCSH-Mappings abgedeckt sind.