Was ist denn nun eigentlich in arXiv drin? Eine Studie zur inhaltlichen Abdeckung von arXiv gibt Auskunft.

Immer wieder taucht die Frage nach der inhaltlichen Abdeckung von arXiv auf: Welcher Anteil des Publikationsaufkommens der arXiv-Fachdisziplinen ist in arXiv zu finden? Aus einer älteren Untersuchung wissen wir, dass in der Hochenergiephysik der Anteil bei 90% liegt. Wie aber sieht es in anderen Teildisziplinen aus?

Hierzu gibt es jetzt die schöne Studie „arXiv e-prints and the journal of record: An analysis of roles and relationships“ von Vincent Lariviere, Cassidy R. Sugimoto, Benoit Macaluso, Stasa Milojevic, Blaise Cronin und Mike Thelwall im Journal of the Association for Information Science and Technology, die (natürlich) auch auf arXiv zu finden ist.

Die Autoren vergleichen hierbei die (gesamten!) Inhalte in arXiv mit (allen!) Inhalten, die im Web of Science (WoS) in den Teildatenbanken Science Citation Index Expanded, Social Sciences Citation Index und Arts and Humanities Citation Index enthalten sind:

  • Welcher Anteil der in arXiv enthaltenen Paper ist in WoS nachgewiesen?
  • Welcher Anteil der in WoS nachgewiesen Paper ist auch auf arXiv zu finden?

(Das sind durchaus unterschiedliche Zahlen, ich persönlich muss mir immer wieder klar machen, welche Datenbank gerade die Basis ist, um mit den Zahlen nicht ins Schleudern zu kommen …) 

Wie schon häufig von mir festgestellt, hat die Kultur der einzelnen Fachdisziplin (bis hin zu einzelnen Arbeitskreisen) einen großen Einfluss auf die Akzeptanz von arXiv in seinen Teildisziplinen, das zeigt auch diese Studie:

64% der E-Prints in arXiv konnten Artikel in WoS zugeordnet werden, d.h. 64% aller Artikel in arXiv sind auch in Web of Science zu finden.

Je nach Fachdisziplin unterscheiden sich die Anteile aber deutlich. Auf dem Gebiet der Kondensierten Materie (cond-mat) werden ca. 80% der arXiv-Paper auch in WoS gefunden (dann i.d.R. als Verlagspublikation), in der Theoretischen Kernphysik (nucl-th) und der Theoretischen Hochenergiephysik (hep-th) sind es immerhin noch um die 70% der Paper.

In Mathematik (math) hingegen sind nur noch 45% der Paper auch in WoS nachgewiesen, im Bereich Computer Science (CS) sogar weniger als 20%.

Das Ergebnis lässt unterschiedliche Interpretationen zu: Am wahrscheinlichsten erscheint mir, dass für die Kondensierte Materie die Publikation im Fachjournal wesentlich wichtiger ist als z.B. für die Mathematik, hier wird teilweise nur noch auf arXiv publiziert, so dass der Anteil der auch in Fachjournals veröffentlichen (und damit in WoS nachgewiesenen) Artikel wesentlich geringer ist. In der Informatik sind Konferenzbeiträge eine weitere wesentliche Publikationsform, die hier in WoS nicht ausgewertet wurde.

Umgekehrt konnten insgesamt nur 3,6% der in WoS erfassten Paper auch in arXiv gefunden werden. (Dabei muss man sich klar machen, dass die gesamten Inhalte des WoS betrachten wurden, inklusive Social Sciences und Arts and Humanities, zunächst also keine Einschränkung auf arXiv-Disziplinen erfolgte.)

Die Analyse der WoS-Disziplinen, die in arXiv vertreten sind, ergibt folgende Zahlen: In der Mathematik sind im Schnitt 21% der WoS-Artikel auch auf arXiv zu finden, in der Physik insgesamt 20%. Heruntergebrochen auf einzelne Teildisziplinen der Physik zeigt sich allerdings ein differenzierteres Bild, u.a.

  • Astronomy & Astrophysics: >70%
  • Nuclear and Particle Physics: > 60%
  • General Physics: > 30%
  • General Mathematics: 30%
  • Solid State Physics: ca. 29%

Die vollständigen Ergebnisse sind in Abb. 3 des Artikels zu sehen.

Wenn ich versuche, die Zahlen zu verstehen, muss ich mir erst klar machen, dass sich die zugrunde liegenden fachlichen Kategorien in arXiv und WoS unterscheiden, wodurch die Zahlen gewissen Ungenauigkeiten unterliegen. Bei vergleichbarem „Zuschnitt“ der Disziplinen (im Artikel bei Astronomy & Astrophysics oder Nuclear and Particle Physics als WoS-Kategorie) ließen sich die Zahlen sicherlich verlässlicher interpretieren als bei unterschiedlichen Zuordnungen. (Ist Solid State Physics in WoS exakt vergleichbar mit arXiv cond-mat?) Hier sehe ich als kleinen Schwachpunkt der Auswertung der WoS-Daten, dass es den Autoren nicht gelungen ist, transparent darzustellen, wie die fachliche Kategorisierung der WoS-Inhalte erfolgte. (Die WoS Categories sind es jedenfalls nicht.)

Meine Interpretation steht hier also unter dem Vorbehalt spekulativer Elemente und kann gerne diskutiert werden. (Im Original-Paper gibt es aus meiner Sicht keinen Versuch der Interpretation, hier stehen nur die Zahlen.)

Also:

  1. Ist der Anteil der sowohl in arXiv als auch in WoS gefundenen Paper hoch (wie z.B. in astro-ph, nucl-th, hep-th … und Astronomy & Astrophysics oder Nuclear & Particle Physics), dann scheint die Kultur der Parallelpublikation, d.h. der Veröffentlichung eines Papers sowohl auf arXiv als auch in Zeitschriften in der ganzen Community verbreitet zu sein.
  2. Gibt es je nach Bezugssystem arXiv oder WoS deutlich unterschiedliche Anteile (wie z.B. im Fall der cond-mat bzw. Solid State Physics), so scheint die Veröffentlichung im Journal zentral für die Veröffentlichungskultur der Teildisziplin zu sein. Auf arXiv werden dann überwiegend diese Zeitschriftenartikel abgelegt, was sich aber nicht in der gesamten Community als Standard durchgesetzt hat. Entscheidend ist die Kultur der jeweiligen Arbeitskreise. Entweder wird (nahezu) alles auch auf arXiv abgelegt (80% der arXiv-Publikationen auch in WoS), oder eben (fast) nichts (weniger als 30% der Solid State Physics-Publikationen in WoS auch in arXiv).
  3. Sind für beide Bezugssystem eher geringe Anteile (<30%) festzustellen, ist die Interpretation schwierig bis spekulativ: Für die Mathematik ist bekannt, dass ein hoher Anteil von Publikationen ausschließlich über arXiv publiziert wird, was zu einem geringeren Anteil von arXiv-Papern in WoS (math ca. 45%) führen kann. (Die nur auf arXiv liegenden Paper werden natürlich in WoS nicht erfasst, so dass sie aus WoS-Sicht komplett herausfallen, ein weiterer Einflussfaktor?) Andererseits ist der Anteil der in WoS nachgewiesenen mathematischen Paper, der auch in arXiv zu finden ist, mit 21% der WoS-Paper noch geringer. (Ein wie ich finde überraschendes Ergebnis.) Hierfür könnten unterschiedliche Gepflogenheiten der mathematischen Teildisziplinen (z.B. der reinen und der angewandten Mathematik) ausschlaggebend sein, so dass entweder nur in arXiv oder nur in Zeitschriften publiziert wird …?

Wen die Verteilung der in arXiv enthaltenen Paper auf die einzelnen arXiv-Teildisziplinen interessiert, der findet übrigens in den arXiv submission rate statistics eine schöne Aufarbeitung.

Bei der Analyse der Zeit, die zwischen Einreichung von Papern bei arXiv und der endgültigen Publikation in der Zeitschrift vergeht („aging statistics“) sind den Autoren der Studie ebenfalls fachliche Eigenheiten aufgefallen, auch wenn über die Jahre die Zeit insgesamt kürzer geworden ist. Sie stellen fest, dass in den physikalischen Disziplinen die Zeit insgesamt kürzer als in der Mathematik ist. Die Mathematiker scheinen danach arXiv stärker als Pre-Print-Plattform zu nutzen (und haben meines Wissens nach deutlich längere Review-Zeiten zu beklagen), während z.B. in der Festkörperphysik es durchaus üblich ist, sein Paper erst dann auf arXiv abzulegen, wenn es im Journal erschienen ist.

Die Analyse und die Interpretation von Zitiergeschwindigkeiten und des Impacts von arXiv-Papern, an die sich die Autoren der Studie ebenfalls heranwagen, ist ein schwieriges Gebiet, so dass ich die Ergebnisse hier nicht ausführen möchte, Details und ein umfassender Vergleich mit bisherigen Untersuchungen finden sich im Artikel.

Insgesamt gibt der Artikel eine schöne Einführung und einen guten Überblick zu bisher erschienenen Untersuchungen zum Anteil der in arXiv veröffentlichten Paper, wobei sich diese Untersuchungen häufig auf einzelne Teilgebiete oder sogar Zeitschriften beschränken. Auch die im arXiv-Kontext immer wieder diskutierten Aspekte zur Terminologie Pre-Print oder E-Print, Originalveröffentlichung und Qualitätssicherung durch Peer-Reviewing werden ausführlich und mit Literaturhinweisen beleuchtet.

Eine kleine Auswahl an Papern, in denen ebenfalls die inhaltliche Abdeckung von arXiv behandelt wird, habe ich hier zusammengestellt, weitere werden in der Studie zitiert:

  • Philip M. Davis und Michael J. Fromerth: Does the arXiv lead to higher citations and reduced publisher downloads for mathematics articles? arXiv:cs/0603056
  • Anne Gentil-Beccot, Salvatore Mele und Travis Brooks: Citing and Reading Behaviours in High-Energy Physics. How a Community Stopped Worrying about Journals and Learned to Love Repositories. arXiv:0906.5418
  • Edwin A. Henneken et al.: Effect of E-printing on Citation Rates in Astronomy and Physics. arXiv:cs/0604061
  • Henk F. Moed: The effect of ‚Open Access‘ upon citation impact: An analysis of ArXiv’s Condensed Matter Section. arXiv:cs/0611060

Dass ich mit diesem Beitrag mein Vorhaben, eine lockere Reihe zu Publikationen über arXiv zu veröffentlichen, erst so spät weiterführe hat einen Grund, der sich mit dem Stichwort Lotse Physik kurz benennen lässt: Nach Veröffentlichung des ersten Beitrags dieser Reihe habe ich mich in die Überarbeitung von Lotse Physik gestürzt, auch um nach der Abschaltung der Virtuellen Fachbibliothek Physik einen adäquaten Ersatz zu schaffen. Weiteres hierzu in meinem Beitrag zu Lotse Physik.

... ist Fachreferentin für Physik und zuständig für die Nationale Kontaktstelle im Netzwerk arXiv-DH