Was lange währt … Automatische Fächerklassifizierung in GetInfo über die Facette „Fach“

Neu in GetInfo, dem Such- und Bestellportal der TIB, ist die fachliche Zuordnung der Treffer aus dem Index „Interne Datenbanken“ zu den sechs TIB-Fächern Technik sowie Architektur, Chemie, Informatik, Mathematik und Physik. Die Zuordnung erfolgt über die  Drilldown-Facette „Fach“ unter „Treffer erschließen“.

Facette „Fach“ unter „Treffer erschließen“.

Da in GetInfo unter „Interne Datenbanken“ auch multidisziplinäre Datenkollektionen sowie die Kataloge der Deutschen Zentralbibliotheken für Medizin ZB MED und Wirtschaftswissenschaften ZBW indexiert sind, gibt es über die sechs TIB-Fächer hinaus außerdem die Zuordnung „Weitere Fächer“.

Was, wie und warum:

Zum Konzept von GetInfo gehörte von Anfang an die automatische fachliche Zuordnung der indexierten Daten. Ziel ist die vollständige standardisierte inhaltliche Erschließung auf dem Weg zur TIB-Fachsuche. Vielleicht erinnern Sie sich noch an das erste GetInfo-Release vom Februar 2009: im Layout war durch die Dreischlitzsuche die Option der Fachsuche bereits angelegt. Allerdings hatten wir zu diesem Zeitpunkt nicht die Möglichkeit der fachlichen Clusterung von Suchergebnissen und damit war auch das  Angebot einer Fachsuchenauswahl obsolet. Geplant war ursprünglich der Einsatz eines automatischen Indexierungssystems für deutsch- und englischsprachige Texte aus Naturwissenschaften und Technik, basierend auf den Ergebnissen des Projekts „LINSearch“.

Die Erprobung des  in diesem Projekt entwickelten Algorithmus brachte allerdings folgendes Fazit: für eine verlässliche Klassifizierung in GetInfo erweist sich ein mehrstufiges Verfahren, d.h. eine Kombination aus Mapping und automatischer Klassifizierung durch einen Algorithmus, als am besten geeignet.

Wir setzen ein vierstufiges Verfahren zur Anreicherung der Metadatensätze in GetInfo ein, das wir als „LINSearch2“ bezeichnen:

  • Stufe 0 entspricht der pauschalen Zuordnung kompletter Datenkollektionen zu einem oder mehreren der TIB-Fächer. Die pauschale Zuordnung haben wir u.a. für die Datensätze der Datenbank IuD Bahn und der Zeitschrift „wt Werkstattstechnik Online“ entschieden.
  • Stufe 1 entspricht dem Mapping bestimmter Klassifikationen auf die sechs TIB-Fächer. Wir haben die folgenden in den Datenkollektionen vorhandenen Klassifikationen zugeordnet: BK , DDC SIGLEMSC, WTI-Fachordnung, PACS, RVK, LCC und die Lokale Systematik der TIB/UB.
  • Stufe 2 entspricht der Zuordnung von Zeitschriften und Kongresstiteln zu den TIB-Fächern über die Formal-Parameter ISSN und ISBN. Die Fachreferentinnen und Fachreferenten haben die Titellisten hierfür auf Grundlage der ZDB-Sachgruppenzuordnung evaluiert und bereinigt.
  • Stufe 3 entspricht der „echten“ automatischen Zuordnung durch einen mit der Firma averbis entwickelten Algorithmus (Support Vector Machine). Der Algorithmus wurde an einer auf der Basisklassifikation (BK) basierenden Mappingtabelle trainiert und wertet vorher festgelegte Metadatenfelder aus (u.a. alle Titelfelder, Abstract, Herausgeber).

Dabei stellte die Heterogenität der Datenquellen in Bezug auf Inhalt, Umfang und Format der Metadaten eine besondere Herausforderung dar: die Indexteile enthalten wissenschaftlich publizierte Information in jeglicher Form und in unterschiedlichem Erschließungsgrad. In den wenigsten Fällen stehen Abstracts oder Inhaltsverzeichnise zum Indexieren zur Verfügung, meistens sind es die bibliographischen Angaben. Insgesamt enthält der interne GetInfo-Index knapp 50 Millionen xml-basierte Datensätze, davon ca. 7,5 Millionen Datensätze aus Bibliothekskatalogen, 33 Millionen aus Aufsatzdatenbanken wie British Library Online Contents oder TEMA sowie über 9 Millionen Verlagsdaten. Die TIB erwirbt die Metadaten für die Nutzung in GetInfo und standardisiert und indexiert diese im GetInfo-eigenen xml-Format. Die Datenverarbeitung erfolgt über Massen-Import- und Update-Routinen, in die wir das automatische Klassifizierungsverfahren integriert haben. Das vierstufige Verfahren reichert jeden einzelnen Metadatensatz mit den Informationen zur Fächerzuordnung an.  Das ergänzte LINSearch2-Element enthält die LINSearch2-Stufe, nach der die Zuordnung erfolgt ist, den Fächercode und in Stufe 3 den Konfidenzwert für die Zuordnung durch den Algorithmus. Die Fächerzuordnung erfolgt immer in einer Stufe: eine Art „Gegenprüfung“ der Stufen 0-2 durch den Algorithmus haben wir zunächst erwogen, wegen zuwenig relevanter Ergebnisse dann aber wieder verworfen. Die Zuordnung eines Datensatzes zu mehreren Fächern ist möglich.

Etwas Statistik …

Insgesamt ergibt sich durch LINSearch2 die folgende Fächerverteilung für den GetInfo-Index:

Fächerverteilung für den GetInfo-Index

Technik mit 35% als stärkstes Fach ist zu erwarten, der mit 21% zweithöchste Anteil „Weitere Fächer“ mag zunächst verwundern, ist jedoch erklärbar:

  • Geowissenschaften sind in der TIB stark vertreten, gelten aber nicht als Kernfach
  • Die Datenbank „Konferenzberichte“ kann aufgrund des hohen Anteils an grauer Literatur ohne Formalparameter nicht für den naturwissenschaftlich-technischen Bereich gefiltert werden und enthält sämtliche Datensätze auch der Nicht-TIB-Fächer
  • Bei einem niedrigen Konfidenzwert in Stufe 3 wird der Datensatz den „Weiteren Fächern“ zugeordnet
  • Der Algorithmus kann Datensätze ohne Sprachangabe oder ohne deutsch- oder englischsprachige Anteile nicht klassifizieren
  • Der GetInfo-Index enthält auch Datensätze, in denen der Umfang der für die Klassifizierung relevanten Metadaten nicht ausreicht

Die Verteilung der angewandten Stufen:

Verteilung der angewandten Klassifizierungs-Stufen

 „Nur“ ein Fünftel der in GetInfo indexierten Datensätze wird durch Stufe 3, den Algorithmus, klassifiziert. Zwei Drittel der Datensätze werden durch die Stufe 1 „Mapping“ erschlossen, also durch die Nachnutzung der klassischen Inhaltlichen Erschließung durch die Fachreferentinnen und Fachreferenten für das automatisierte mehrstufige Verfahren! Nicht alle von uns hat dieses Ergebnis überrascht …

Was muss ich bei Nutzung des Filters „Fach“ wissen?

Die Facette „Fach“ erscheint automatisch unter „Treffer erschließen“, wenn in der Trefferliste mehr als ein Fach vertreten ist. Diese „mehr als eins“-Regel gilt übrigens für alle Facetten: erhalte ich in der Trefferliste beispielsweise ausschließlich elektronische Dokumente, wird mir die Facette „Dokumentformat“ nicht angeboten. Entsprechend erscheint „Fach“ nicht als Filter, wenn ich den Suchraum in der Datenbankauswahl auf „IuD Bahn“ und/oder „DKF“ beschränke, da diese Kollektionen pauschal und ausschließlich der Technik zugeordnet sind.

Die Reihenfolge der Fächer ist absteigend nach Trefferanzahl: je nach eingegebenem Suchwort kann „Weitere Fächer“ zur Zeit an zweiter oder dritter Stelle innerhalb der Facette „Fach“ auftauchen. Dies ist eher nicht erwartungskonform und wird mit dem nächsten GetInfo-Release Anfang 2013 geändert: „Weitere Fächer“ wird dann unabhängig von der Trefferanzahl immer am Ende der Fächerliste in der Facette „Fach“ angezeigt.

Wie geht es weiter?

Mittelfristig planen wir die Optimierung des Stufenverfahrens von LINSearch2 auf der Grundlage der Auswertungslisten sowie den Ausbau aller vier Stufen zur feineren Zuordnung innerhalb der sechs TIB-Fächer, insbesondere im Fach Technik.

Die Filterung der sechs TIB-Fächer plus „Weitere Fächer“ unter „Treffer erschließen“ ist der erste Schritt auf dem Weg zur TIB-Fachsuche. Um den Suchraum von vornherein  fachlich einschränken zu können, möchten wir die Auswahl der Fächer über Facette  künftig vor einer Suche anbieten. Die Möglichkeit, Facetten bereits vor der Eingabe einer Suchanfrage auszuwählen, streben wir generell an, ebenso wie die Mehrfachauswahl von Parametern innerhalb einer Facette.

Zur Zeit evaluieren wir die Reihenfolge der angebotenen Facetten (Filter) unter „Treffer erschließen“ nach Häufigkeit der Nutzung mittels eines Verfahrens zur Webanalyse. Wir können bereits jetzt absehen, dass es bei der aktuellen Reihenfolge nicht bleiben wird und sind gespannt, wie sich die Facette „Fach“ etablieren wird. Über Rückmeldungen hierzu oder zur Facettenauswahl unter „Treffer erschließen“ freuen wir uns!

Für weitere Informationen rundum LINSearch2 stehe ich gerne Rede und Antwort – oder werde Ihre Fragen entsprechend weiter vermitteln!

Teilen und Versenden

The following two tabs change content below.

Berrit Genat

Diplom-Bibliothekarin an der Technischen Informationsbibliothek, arbeitet in der Abteilung Digitale Bibliothek und Wissenschaftliche Dienste für die Produktentwicklung, speziell an der Weiterentwicklung von GetInfo und den damit verknüpften Dienstleistungen.