TrenDTF Search – der lange Weg zum maschinenlesbaren Textkorpus

Spätestens mit den aktuellen Debatten um „künstliche Intelligenz“ in der Form von large language models steht die Computerlingustik, das heißt, die Verarbeitung natürlicher Sprache durch Algorithmen im Scheinwerferlicht des öffentlichen Interesses. Doch welche vorbereitenden Schritte sind notwendig, um Texte für Computer lesbar und sogar „verstehbar“ zu machen?

Am Beispiel unseres neuen Prototypen TrenDTF Search geben wir einen kleinen Einblick in den Maschinenraum der Forschung und Entwicklung zu natural language processing an der TIB.

Screenshot einer Beispielsuche in TrenDTF Search; 2023-04-06.

TrenDTF Search ist ein direktes Ergebnis des Projekts TrenDTF, das vom BMBF als Verbundvorhaben der TIB mit dem Fraunhofer ISI und Fraunhofer IML vom 01.10.2019 bis 30.09.2022 gefördert wurde. TrenDTF Search ermöglicht erstmals eine semantisch unterstützte Volltextsuche auf einer umfangreichen (69.961 Berichte), aber notwendigerweise unvollständigen Sammlung deutscher Forschungsberichte.

Überblick über die Entwicklungen im Projekt TrenDTF
In TrenDTF wurde der bestehende Korpus der Deutschen Forschungsberichte durch Topic Modelling semantisch angereichert. Die Ergebnisse sind nun in TrenDTF Search durchsuchbar.

Forschungseinrichtungen aller Fächer erstellen diese Berichte, um zum Beispiel gegenüber Forschungsförderern über Ergebnisse und Fortschritte von Forschungsvorhaben zu informieren. Die TIB sammelt deutsche Forschungsberichte als Depotbibliothek. Es handelt sich daher um eine sehr heterogene Kollektion von Texten, die zudem den Zeitraum von 1985 bis 2017 abbildet.

Schon der erste Schritt der Datenverarbeitung, die Extraktion von (einfachem) Text aus PDF-Dateien durch Algorithmen zur Zeichenerkennung (optical character recognition) kann insbesondere für ältere Dokumente herausfordernd sein. Fehlerquellen lauern zum Beispiel bei der Erkennung von Ligaturen oder bei eingebetteten mathematischen Formeln und Symbolen. Das resultierende Datenvolumen von mehreren Terabyte erfordert eine entsprechende IT-Infrastruktur und deren fortlaufende Wartung.

Im Rahmen des Projekts TrenDTF wurden verschiedene Text-Mining-Algorithmen erprobt. Insbesondere mehrere erfolgreiche Ansätze zur Eigennamenerkennung und Themenmodellierung fließen in die Suchanwendung TrenDTF Search ein. Die Eigennamenerkennung (named entity recognition) umfasst die automatische Erkennung beliebiger vordefinierter Begriffe. Die hierbei extrahierten Konzepte wurden mit Konzepten aus dem Wissensgraphen DBpedia identifiziert. So wurde nicht nur ein bereits etablierter Thesaurus nachgenutzt, sondern es ist bereits eine semantische Modellierung für mögliche weitergehende Anwendungen angelegt.

Themenmodellierung (topic modelling) beschreibt die Gruppierung und Klassifizierung von Texten anhand ähnlicher vorkommender Begriffe. Da es sich um eine ziemlich aufwendige und ressourcenhungrige Technik handelt, konnte sie für den Prototypen nicht auf dem Gesamtkorpus der Volltexte umgesetzt werden, sondern liegt für einen Ausschnitt vor, insbesondere die Informatik. Für 66.777 Forschungsberichte kann TrenDTF Search auf Themenmodellierung und DBpedia-Konzepte zurückgreifen, die aus den Titeln der Berichte (statt aus den Volltexten) extrahiert wurden.

Desweiteren nutzt TrenDTF Search bereits vorhandene, von der TIB zur Erschließung der Forschungsberichte erarbeitete Metadaten nach. So ermöglicht TrenDTF Search zum Beispiel die Suche mittels der TIB-internen Fächerklassifikation Linsearch oder der weit gebräuchlichen Basisklassifikation.

Technisch basiert TrenDTF Search auf Elastic Search, Flask and FastAPI. Eine Schnittstelle für maschinelle Abfragen und die zugehörige Dokumentation finden sich unter https://service.tib.eu/trendtfAPI.

Vielen Dank an Asim Qazi, den wesentlichen Entwickler von TrenDTF, der mit seiner Arbeit einen Grundstein für künftige Text-Data-Mining-Anwendungen an der TIB gelegt hat!

Für weitere Fragen kontaktieren Sie gerne Lambert Heller, den TrenDTF-Projektleiter.

Holger Israel ist promovierter Astrophysiker und Fachreferent für Mathematik an der TIB. Er beschäftigt sich außerdem mit automatisierter Sacherschließung und Text Data Mining.