How open is it? Content Mining – auch eine Frage des Formats

HowOpenIsIt?
HowOpenIsIt?® Open Access Spectrum“, © 2014 SPARC and PLOS, licensed under CC BY

“Wie wäre es, wenn Wissenschaftler und Infrastruktureinrichtungen Fakten, Daten und Ideen mit technischen Mitteln aus Publikationen extrahieren und analysieren könnten, ohne sich über das Urheberrecht Gedanken machen zu müssen?“ So beginnt der Blog-Beitrag von Elke Brehm über die Hague Declaration. Doch neben den rechtlichen Fragen stellen sich bei Text, Data oder Content Mining Vorhaben auch technische Fragen, z.B.: ist eine automatische Extraktion von Inhalten technisch überhaupt realisierbar und mit welchem Aufwand? Nicht umsonst listet der HowOpenIsIt?®-Guide neben rechtlichen Aspekten (Reader Rights, Reuse Rights, Copyrights, Author Posting Rights) auch die Kategorie Maschinenlesbarkeit als Kriterium für Open Access. 

PDF! Und was sonst?

Trotzdem finden sich selbst unter Open Access Verlagen viele Beispiele, welche ihre Artikel nicht in maschinenlesbarer Form anbieten. So ist unter den in der Open Access Scholarly Publishers Association (OASPA) zusammengeschlossenen Verlagen weiterhin PDF das bestimmende und zum Teil einzige Format, in dem Artikel angeboten werden. Demgegenüber sind strukturierte, maschinenlesbare Formate, wie z.B. XML, noch immer nicht flächendeckend zu finden. Ein Blick auf die 20 großen OASPA Publisher zeigt: Während viele Artikel neben PDF auch als HTML verfügbar sind, bieten nur sechs der zwanzig Verlage ihre Artikel als XML an. Weitere Formate, kommen nur vereinzelt vor. Zu dem gleichen Schluss kommt auch eine aktuelle Arbeit zu Distributionsformaten von Open Access Publikationen.

OASPA
Anteil der 20 großen OASPA-Publisher, die Artikel in den angegebenen Formaten anbieten. Publisher, die nur einen Teil der Artikel im jeweiligen Format anbieten wurden als ½ gezählt. Diese und weitere im Text genannte Zahlen wurden während meiner Arbeit im Open Science Lab ermittelt.

Ein Content Mining Beispiel

Wie wäre es, wenn wissenschaftliche Abbildungen über Suchmaschinen und Datenbanken genauso einfach auffindbar und nachnutzbar wären, wie die Publikationen in denen sie enthalten sind? Die Entwicklung eines solchen Suchservices ist das Ziel des Projekts zur automatischen Sammlung, Erschließung und Bereitstellung von Open Access Abbildungen, welches die TIB in Kooperation mit der Hochschule Hannover plant. Dieses soll den Zugang zu Open Access Abbildungen erleichtern und damit deren Nachnutzbarkeit (z.B. in Lehre und Forschung, in Wikipedia- oder journalistischen Artikeln) erhöhen. Allerdings stellen unstrukturierte Dokumente aus heterogenen Quellen eine große Herausforderung bei der automatischen Erschließung der Abbildungen dar. Einheitliche und maschinenlesbare Standards wären also, ebenso wie ein möglichst homogener Dokumentenpool, wünschenswert.

Content Mining – eine Frage des Formats

Um die Herausforderungen bei der automatischen Erschließung so gering wie möglich zu halten, sollen zunächst nur Dokumente aus dem ingenieurswissenschaftlichen Fächerspektrum, die außerdem als XML verfügbar sind, verwendet werden.
Mit wie vielen Artikeln und Abbildungen kann man hier also aktuell rechnen?
Unter den 20 großen OASPA Publishern gibt es fünf (PLoS, Frontiers, Hindawi, SpringerOpen, BioMedCentral), welche alle Artikel auch als XML anbieten, sowie einen Verlag (MDPI), der die meisten Artikel als XML zur Verfügung stellt und diese gesammelt zum Download anbietet. Darüber hinaus stehen hier alle Inhalte unter einer CC-BY-Lizenz (auch in dieser Hinsicht sind andere OASPA Publisher zum Teil restriktiver). Innerhalb dieser sechs Verlage finden sich 90 Zeitschriften mit einem technisch-ingenieurswissenschaftlichen Themenspektrum, die seit Anfang 2013 insgesamt mehr als 35.000 Artikel veröffentlicht haben (Stand: Anfang August 2015). Stichproben zeigen, dass in diesen Fächern im Schnitt etwa zwei bis drei aussagekräftige Abbildungen (d.h. mehr als nur ein Graph oder ein Tabelle) pro Zeitschriftenartikel zu finden sind. Somit können wir hier also mit etwa 100.000 Open Access Abbildungen aus den letzten zweieinhalb Jahren rechnen – ein vielversprechender, prozessierbarer Artikelkorpus.

Dieser kurze Überblick über das Publikationsaufkommen zeigt zweierlei:
Einerseits gibt es ein wachsendes Aufkommen an Publikationen und Abbildungen, die die Mindeststandards CC-BY-Lizenz und strukturiertes Format erfüllen. Andererseits sind einheitliche Standards für die technischen Erfordernisse von Text, Data und Content Mining selbst bei vielen Open Access Verlagen noch nicht ausreichend umgesetzt. Bei der Nachnutzung wissenschaftlicher Publikationen sind daher nicht nur (urheber-) rechtliche Fragen zu beachten, sondern auch Fragen der Maschinenlesbarkeit.

... arbeitet im Kompetenzzentrum für nicht-textuelle Materialien (KNM).