Data Papers – eine Ode an die Daten

Veröffentlicht am 15. Februar 20228. November 2023 von Xenia van Edig, Sarah Dellmann und Anna Renziehausen

Daten sind ein wichtiger Output von Forschung, dies ist hinlänglich bekannt. Viele Forschungsförderer knüpfen eine Finanzierung an die Bedingung, dass die Forschenden ihre Daten – sofern keine Einschränkungen etwa bei Daten über Personen vorliegen – in einem Repositorium publizieren und sie so für andere zugänglich machen. Auch viele Forschungseinrichtungen haben mittlerweile Policys, die Ihre Wissenschaftler:innen dazu anhalten, Forschungsdaten zu veröffentlichen. Forschende können diese Vorgaben zu ihrem Vorteil nutzen: Um dem publizierten Datensatz mehr Aufmerksamkeit zu verleihen und die Nachnutzung für andere zu erleichtern, ist die Publikation eines data papers eine Option: Denn Datensätze zu teilen und die Daten anderer Forschungsprojekte für die eigene Arbeit zu nutzen, wird mehr und mehr gelebte Praxis.

Das Konzept data papers stammt ursprünglich aus einer Zeit, in der es noch nicht so einfach möglich war, Datensätze direkt zu zitieren: Über einen deskriptiven Artikel (data paper) in einem Journal konnten Daten über den traditionellen Weg der Artikel-Zitierung wissenschaftliche Anerkennung und Aufmerksamkeit erhalten. Datenjournale sind weiterhin populär, auch wenn die Publikation in Datenrepositorien inzwischen präsenter ist und es mittlerweile sehr viel einfacher ist, Datensätze zu teilen, zu beschreiben und mit einem DOI auf die Datensätze zu verweisen. Inzwischen wurden auch anerkannte Guidelines zur Zitierung von Daten etabliert. Es gibt eine ganze Menge von Datenjournalen, die meist fächerorientiert sind. Einen Artikel über Daten zu publizieren, so scheint es, bringt immer noch mehr Renommee als „nur“ die Daten mit einer Read-Me Datei zu veröffentlichen. Ein weiterer Grund für das höhere Renommee eines Datensatzes, der in einem data paper beschrieben ist, könnte darin liegen, dass data papers ein Begutachtungsverfahren („Peer Review“) durchlaufen und somit eine externe Qualitätskontrolle stattfindet. Studien zur Zitation von Datensätzen deuten an, dass Datensätze, zu denen auch ein data paper veröffentlicht wurde, häufiger zitiert werden als Datensätze ohne ein zugehöriges data paper. Das lässt sich damit erklären, dass Datenjournale mitunter in Literaturdatenbanken aufgenommen werden und somit eine weitere Recherchemöglichkeit zum Finden von Datensätzen besteht und die Nachnutzung von Daten über klassische (wenn auch kritikbedachte) Metriken veranschaulicht wird – das geowissenschaftliche Open-Access-Datenjournal „Earth System Science Data“ hat beispielsweise derzeit einen Journal Impact Factor von 11.333 und das fachlich breiter aufgestellte Datenjournal „Scientific Data“, das zu „Nature“ gehört und ebenfalls open access publiziert wird, einen Impact Factor von 6.444.

Wissenschaftliche Zeitschriften veröffentlichen die dem Artikel zugrundeliegenden Forschungsdaten in der Regel nicht; zunehmend ist allerdings in einem „Data Availability Statement“ angegeben, wie auf die Daten zugegriffen werden kann. Diese Verfügbarkeitsangaben variieren allerdings stark und können enthalten, dass Autor:innen die Datensätze nur auf Anfrage verschicken oder aber, dass ein Link zum Datensatz bereitgestellt wird. Das ist keine Kritik an wissenschaftlichen Zeitschriften – sie erfüllen andere Zwecke. Der Fokus eines Artikels in der wissenschaftlichen Zeitschrift liegt meist auf den Erkenntnissen, d.h. den Interpretationen, die aus den Daten gewonnen wurden. Daher sind wissenschaftliche Zeitschriften nicht als Aufbewahrungsort für Daten konzipiert: Die Datenbankstrukturen/IT-Systeme einer Zeitschrift sind für/auf Texte optimiert, Supplements zu Artikeln werden oft nicht langzeitarchiviert. Deshalb sind Daten (in fast allen Fällen) in einem Datenrepositorium besser aufgehoben. Datenjournale hingegen legen den Fokus auf die ausführliche Beschreibung der Daten, der Erhebungsmethode und der Form der Datenveröffentlichung. Eine Bedingung für die Annahme eines data papers ist dann auch, dass die Daten auf einem geeigneten Datenrepositorium liegen. Wichtig ist, dass beide Objekte (Datensatz und data paper) über einen persistenten Identifier (idealerweise DOI) gegenseitig miteinander verknüpft sind. Ebenso wichtig zu Wissen: Im Begutachtungsprozess wird nicht nur das data paper unter die Lupe genommen, sondern auch der publizierte Datensatz. Viele Datenjournale haben eine Liste von Kriterien, die Datenrepositorien erfüllen müssen. Ganz grundsätzlich lässt sich sagen, dass publizierte Daten idealerweise die FAIR-Kriterien erfüllen sollten. Um eine breite Nachnutzung zu ermöglichen, sollten Daten, wenn möglich, mit einer liberalen Verbreitungslizenz (z.B. CC BY) versehen werden.

Die Beschreibung von Daten in einem data paper ist also kein romantischer Liebesbrief, aber die Zeit und Aufmerksamkeit, die zur Beschreibung des Datensatzes und zur Begutachtung des Papers aufgebracht werden, sind zumindest eine Wertschätzung eines bislang leider noch vernachlässigten Publikationstypen. Das Verfassen eines data papers ist somit eine passende Aktivität für die Love Data Week! Gern beraten wir, welches Datenrepositorium (ein institutionelles wie das LUH Forschungsdaten-Repositorium, ein fachliches, z.B. Pangaea, oder ein allgemeines, z.B. Zenodo) für Ihre Daten und welches Datenjournal für die Publikation Ihres data papers ein geeigneter Publikationsort wäre. Und: Sollte sich kein passendes Datenjournal finden, dann können wir auch bei der Gründung eines neuen Datenjournals helfen!

Bei Fragen rund um das Publizieren von Daten helfen Ihnen die Kolleg*innen vom Service-Team Forschungsdaten forschungsdaten@uni-hannover.de. Sollten Sie Interesse an der Gründung eines Datenjournals haben, wenden Sie sich an openpublishing@tib.eu.