Wer – Wieviel – Wovon? Ein kleiner Überblick zu arXiv-Statistiken

Nicht nur Physiker und Mathematikerinnen, sondern auch BibliothekarInnen haben große Freude an der Auswertung von Zahlenkolonnen – seien es Messreihen des LHC oder Nutzungsstatistiken von arXiv. Messfehler und –ungenauigkeiten werden (natürlich) immer berücksichtigt …

In diesem Sinne finde ich die von der Cornell University Library bereitgestellten Statistiken zur arXiv-Nutzung so spannend, dass ich hier einen kleinen Überblick hierzu geben möchte. 

Ach ja, aufgepasst arXiv Statistics ist natürlich der Bereich in arXiv, in dem man Paper zur Forschung auf dem Gebiet der Statistik findet und nicht die arXiv-Statistiken, die ich meine. arXiv usage statistics ist hier die richtige Adresse.

Für das Netzwerk arXiv-DH und das arXiv Membership Model sind natürlich die Institutional arXiv Usage Statistics, für die die Zahl der institutionellen Downloads ausgewertet wird, grundlegend: Welche Institutionen aus Deutschland sind 2014 auf welchem Platz gelandet, wo standen sie 2013? Aus der Summe der Institutional Membership Fees der Einrichtungen unter den TOP 200 berechnet sich immerhin unser arXiv-Beitrag.

Beeindruckend ist der rasante Anstieg der Zahl der monatlichen Downloads weltweit von ca. 7000 Downloads/Monat noch Anfang 2014 auf deutlich über 10.000 Downloads/Monat seit Anfang 2015.

Die Zahl der monatlichen Submissions nimmt ebenfalls weiterhin zu, wenn auch nicht so sprunghaft wie die Zahl der monatlichen Downloads.

Um sich einen Eindruck von den Inhalten von arXiv nach Teildisziplin zu machen, hilft ein Blick auf die Daten zu den Submission totals broken down by major subject areas through 2014 .

arXiv Submissionsion nach Teildisziplin
arXiv Submissionsion nach Teildisziplin

Für 2014 lassen sich die Diagramme zum zeitlichen Verlauf der kumulativen Submissions (also was ist zum Zeitpunkt X insgesamt drin) auch als Torte darstellen. Vergleicht man dies mit den Angaben zu den Submissions 2014 je Teildisziplin, dann sieht man, dass aktuell die Mathematiker und die Computerwissenschaftlerinnen die aktivsten arXiv-Befüller sind.

inhalte_arXiv_2014

Neben diesen für alle sichtbaren Zahlen erhalten die arXiv-Member – quasi als einer der Gegenwerte für ihr finanzielles Engagement – weitere Statistiken, wie z.B. die Zahl der Downloads einer Institution nach arXiv-Teildisziplin.

Als nationale arXiv-Kontaktstelle erhält die TIB diese Zahlen von der Cornell University Library also für alle von ihr vertretenen Einrichtungen im Netzwerk arXiv-DH. Dass wir für diese Zahlen bisher noch keine große Werbung gemacht und sie an die jeweiligen Einrichtungen weitergereicht haben, lag daran, dass wir sie in den letzten Jahren noch für vorläufig (oder ungenau s.o.) hielten, da noch einiges an Domain-Names zuzuordnen und zu sortieren war. Ich denke aber, dass sich inzwischen ein stabiles Bild ergeben hat, so dass wir jetzt Auskunft über diese Statistiken geben wollen.

Zuerst die Antwort auf die Frage: Wo steht meine Einrichtung? – Gerade, wenn sie nicht zu den TOP 200 institutionellen Nutzern gehört. Dafür haben wir die Liste erweitert auf die TOP 500 Einrichtungen im Netzwerk arXiv-DH:

[table “1” not found /]

Wer seine Einrichtung hier erwartet und nicht wiederfindet, kann sich gerne melden: Wir forschen nach. (Wie immer ist auch bei dieser Statistik eine gewisse Unschärfe zu vermuten, daher sollten die Werte gerade bei geringeren Downloadzahlen eher im Sinne einer groben Orientierung verstanden werden, wir haben sie daher nur als Zahlenbereich angegeben.)

Eine weitere Erweiterung ist die Information zur Verteilung der Downloads über die arXiv-Disziplinen. Für die Leibniz Universität Hannover sah sie in den letzten Jahren z.B. so aus:

arXiv_luh

Spannend ist, dass sich aus den Graphiken tatsächlich die Forschungsschwerpunkte der einzelnen Universitäten herauslesen lassen. Wer sich ein bisschen in der Forschungslandschaft deutscher Universitäten auskennt, den überrascht nicht, dass sich anhand der fachlichen Downloads das folgende Bild ergibt:

[table “2” not found /]

Achtung: Da diese Tabelle viele Einrichtungen zusammenfasst, sind die lokalen Verhältnisse nicht immer adäquat dargestellt. Interessierte Einrichtungen mögen sich melden, wir geben dann sehr gerne die lokalen Statistiken weiter. Gerne nehmen wir auch Meldungen zu den genauen IP-Ranges der Universitäten entgegen, die wir dann den Kolleginnen an der Cornell University Library zur Optimierung der Statistik weiterreichen. (Vieles basiert aktuell auf DNS-Resolving.)

Darüber hinaus stellte sich mir die Frage nach einem „Frühjahrstagungseffekt“: Hat die Zusammenrottung vieler Wissenschaftler einer oder mehrerer physikalischer Teildisziplinen an einem Tagungsort einen Einfluss auf die arXiv-Statistik des ausrichtenden Universität, die ja netterweise ihren VPN-Zugang auch für die Tagungsbesucherinnen bereitstellt? Ich denke: ja, es gibt diesen Effekt! Aus der Statistik der Universität Regensburg lässt sich z.B. herauslesen, dass sich dort 2010 und 2013 die Sektion Kondensierte Materie der DPG getroffen hat. Dass ebenfalls 2013 die DPG-Jahrestagung mit dem für die Teilchenphysik seltenen Tagungsort Dresden stattfand, lässt sich in der Statistik der Uni Dresden an einer Verdoppelung der Downloads aus dem Bereich HEP im Jahr 2013 nachvollziehen. (Der Effekt ist allerdings nur dann signifikant, wenn sich entweder eine große Sektion an einer Uni mit ähnlicher fachlicher Ausrichtung oder eben eine Community mit deutlich unterschiedlicher Ausrichtung trifft.)

Leider gibt es keine verlässlichen Statistiken der Submissions nach Institution (Affiliation). Der Grund ist ganz einfach: Beim Einreichen eines Papers kann man zwar Informationen zur Author Affiliation angeben, muss es aber nicht. Außerdem werden diese dann nicht in einem eigens durchsuchbaren Feld gespeichert. (Und dann kommt da noch der Aspekt der Standardisierung der Institutionennamen hinzu: LUH = Leibniz Universität Hannover = Gottfried Wilhelm Leibniz Universität Hannover = Universität Hannover = …)

Bibliothekarisch gesprochen: Es gibt (zur Zeit) kein Metadatenfeld, in dem die Affiliation der Autoren gesondert erfasst wird, diese steht häufig nur im Volltext des Papers.

Die einzige „verlässliche“ Angabe zur Herkunft eines Autoren wird mit der E-Mail-Adresse des Submitting Authors übermittelt. Ursprünglich sollte das der Schwellenlosigkeit von arXiv dienen und der Bequemlichkeit der Autoren entgegen kommen, allerdings ist das ist nicht nur für die Abfrage von Statistiken schade, sondern auch für die Interoperabilität von arXiv mit Institutionellen Repositorien. (Die dadurch die Paper ihrer Autoren nicht durch eine einfache Abfrage nach Autoren-Affiliation in arXiv aufspüren können.) Hier hoffen wir einerseits auf die stärkere Nutzung von ORCID-IDs durch die Autoren in arXiv (in dern ORCIDs sind auch Institutionen verankert) bzw. längerfristig auf eine Erweiterung des arXiv-Metadatenschemas, u.a. um ein Affiliation-Feld. Die arXiv Interoperability Group hat sich dieses Themas bereits angenommen, wie auch in meinem arXiv Update August 2015 dargelegt.

... ist Fachreferentin für Physik und zuständig für die Nationale Kontaktstelle im Netzwerk arXiv-DH