Text und Data Mining – was ist das und wie komme ich an die Daten?

Text und Data Mining ist für viele Wissenschaftler der unterschiedlichsten fachlichen Disziplinen als wissenschaftliche Methode bereits Alltag geworden. Dabei wird mit Hilfe von auf Algorithmen basierenden Analyseverfahren in einer wenig- oder unstrukturierten Datenmenge nach Mustern gesucht um zum Beispiel neue wissenschaftliche Thesen zu entwickeln oder bestehende Thesen durch Datenanalysen zu überprüfen. Die Datenmenge kann dabei z. B. aus Texten, Bildern, Messdaten bestehen. In der Wissenschaft ist Text und Data Mining beispielsweise im Rahmen der Genomsequenzierung, aber auch in den Geisteswissenschaften als Methode gar nicht mehr wegzudenken.

Voraussetzungen für Text und Data Mining sind frei verfügbare und maschinenlesbare Daten.

Sofern die für Text und Data Mining genutzten Daten nicht eigenen Texten und selbst durchgeführten Experimenten entstammen, stellt sich die Frage, woher Wissenschaftler die gewünschten Daten nehmen und unter welchen Bedingungen die Daten genutzt werden dürfen.

Unbearbeitete Rohdaten (z. B. Messdaten) sind aus technischer Sicht in der Regel strukturierte Daten und urheberrechtsfrei. Andere „Daten“ wie z. B. Texte, Bilder und Videos sind zunächst unstrukturierte Daten, die technisch aufbereitet werden müssen, um sie für eine maschinelle Analyse zu erschließen. Sie können als Werk oder im Rahmen eines Leistungsschutzrechts urheberrechtlich schutzfähig sein, sofern die Voraussetzungen erfüllt sind und die Schutzfristen nicht bereits abgelaufen sind. Sofern seitens der Wissenschaftler eine klare Aussage zur Rechtesituation und Nutzungsmöglichkeiten für Text und Data Mining an den urheberrechtlich geschützten Objekten getroffen wurde, bleibt Wissenschaftlern eine evtl. aufwändige Recherche nach den Rechtsinhabern und ebenso aufwändige Rechteeinholung für die Nutzung der Daten erspart.

Zeitschriftenaufsätze und sonstige Textpublikationen sind für Text und Data Mining ebenfalls geeignetes Datenmaterial. In vielen Fällen handelt es sich um Verlagspublikationen. Seitens einiger Verlage gibt es schon Ansätze Klauseln in die Lizenzverträge aufzunehmen (Springer) oder Text und Data Mining auf den Plattformen der Verlage zu gestatten (CrossRef und Elsevier).

Die Allianz der deutschen Wissenschaftsorganisationen versucht im Rahmen der Schwerpunktinitiative Digitale Information bei der nationalen Lizenzierung von Verlagsprodukten ihrerseits für die Wissenschaftler die gewünschten Rechte zum Text und Data Mining mit den Verlagen zu verhandeln. Hierzu wurde die folgende Klausel in die Musterlizenz für die Allianz-Lizenzen aufgenommen:

„The Licensed Material may be used for text and data mining to enhance services, to encourage scholarship, teaching and learning and to conduct research by the Licensee and Authorised Users according to the following principles, as long as the purpose is not to create a product for use by third parties that would substitute the Licensed Material: Raw data may be extracted from the Licensed Material. Text and data mining may be performed on the unchanged Licensed Material or on extracted data (including but not limited to reproducing, storing, adapting, assembling large collections or extracting substantial portions of data and analysing them). The raw data is research data and may be stored, published and distributed in any medium or form under any license in order to ensure reproducibility and sustainability, as long as the Licensed Material cannot be reconstructed in its original, human readable form. The Licensor will cooperate with Licensee and Authorised Users as reasonably necessary in making the Licensed Material available in a manner and form most useful to the Licensee and Authorised Users. Attribution must be made to the Licensor in an appropriate manner and form.“

Die Modelle unterscheiden sich in folgenden Punkten:

  • physische Verfügbarkeit der Volltexte für den Wissenschaftler
  • nicht-kommerzielle Zwecke des Wissenschaftlers
  • Rechte zur Veröffentlichung der genutzten Daten in Form von strukturierten Rohdaten, sofern die Originaltexte nicht rekonstruierbar sind
  • Zweck darf nicht sein, ein für Dritte nutzbares Produkt zu kreieren, das die Verlag angebotenen Publikationen ersetzt
  • Namensnennung

Derzeit sind Wissenschaftler in Deutschland für Text und Data Mining von Textpublikationen auf die Wahl der Lizenz durch die Wissenschaftler bzw. die durch den Verlag gebotenen Modelle angewiesen, sofern ein Urheberrechtsschutz besteht. Aber auch hier ist die Diskussion und die Entwicklung noch nicht beendet.

... ist Fachreferentin für Rechtswissenschaften, stellvertretende Justiziarin und Datenschutzbeauftragte der TIB