arXiv ist 30!

Wie die Zeit rast! Mir kommt es fast wie gestern vor, dass wir den 25. Geburtstag von arXiv gefeiert haben. Tasächlich sind fünf weitere Jahre ins Land gegangen und arXiv ist im August 30 geworden. (Wenn wir von arXiv als international genutzter Informationsplattform reden, ist die Zeit eigentlich in die Welt gezogen, aber das sagt man nunmal nicht.) Das mutmaßlich erste Paper erreichte arXiv übrigens am 14. August 1991.

In 25 Jahre arXiv: Herzlichen Glückwunsch! habe ich einige Schlaglichter auf die Geschichte von arXiv geworfen, die ich nach wie vor faszinierend finde. Dennoch möchte ich mich in diesem Beitrag auf die Entwicklung von arXiv in den letzten Jahren konzentrieren. Einiges davon klingt bereits in meinem (ööhhmm) letzten Beitrag arXiv in Zeiten der Pandemie zum arXiv-Meeting 2020 an. Vieles von den damals diskutierten Punkten

  • Anpassung der arXiv-Strategie,
  • Finanzierungsmodell und seine Nachhaltigkeit,
  • technische Entwicklung der Plattform arXiv,
  • arXiv-Moderation und täglicher Betrieb

ist bewegt worden und hat im vergangenen Jahr einen nächsten Level erreicht, insbesondere seitdem Eleonora Presani im letzten Jahr – mitten in der ersten Welle der Pandemie – ihren Job als arXiv Executive Director angetreten hat. Ich versuche mich hier mal an einer kurzen, aber trotzdem möglichst vollständigen Zusammenfassung der aus meiner Sicht wesentlichen Ergebnisse. Für die „Langversion“ verweise ich gerne auf die ausführlicheren Beiträge im arXiv-Blog.

Stabilität für arXiv, das war beim diesjährigen arXiv Meeting Anfang Oktober der rote Faden der Berichte, an dem ich mich sehr gerne orientiere. (Leider, leider war erneut nur ein virtuelles Treffen möglich, das allerdings wieder sehr gut vorbereitet worden war. Die Sehnsucht nach einem „echten“ Treffen wächst, zumal wir uns teilweise nur als Kacheln kennen.)

Für arXiv hat Stabilität drei bedeutende Säulen: die der finanziellen, der technischen und der organisatorischen Stabilität mit all ihren jeweiligen Bausteinen. So paradox das klingt, der enorme Erfolg von arXiv ist das größte Risiko für sein stabiles Fortbestehen. 35 Millionen Downloads/Monat, 5+ Millionen-Nutzer/Monat und 178.000 Submissions in 2020 (also ein Zuwachs von 150 Prozent seit 2010) müssen erst einmal verkraftet (sprich moderiert, verwaltet, gespeichert, bereitgestellt, …) werden.

Leider bedeutet mehr Nutzung auch steigende Kosten. Das arXiv-Team hat im vergangenen Jahr das Finanzierungsmodell überdacht und weitere relevante Geldquellen identifiziert. Dabei hat geholfen, dass nicht mehr nur die Downloads ausgewertet wurden, sondern ein Blick auf die Submissions geworfen wurde. So wurde nachgewiesen, dass große global agierende Tech-Konzerne ebenfalls einen signifikanten Anteil an der arXiv-Nutzung haben. Das überarbeitete Modell unterscheidet jetzt drei Arten von Einnahmequellen und Beteiligten:

  • Beiträge von zentralen Förderern (Major funders): Hier ist insbesondere das Engagement der Simons Foundation hervorzuheben sowie die Unterstützung durch die Cornell-Universität als Träger von arXiv. Weitere Mittel für konkrete Projekte wurden und werden als Fördergrants eingeworben.
  • Beiträge der Mitglieder (Members), also Beiträge akademischer Institutionen, die stellvertretend für ihre Forschenden einen Anteil an der Finanzierung von arXiv übernehmen. Häufig sind das die Bibliotheken der jeweiligen Universitäten oder sonstigen Forschungseinrichtungen.
  • Beiträge von Affiliierten und Sponsoren sowie aus sonstigen Spenden (Affiliates, Sponsors and Donors): Diese neue, offenere Gruppe möglicher Unterstützer zielt auf profitorientierte Firmen (Google, Amazon und Co.), die als Sponsoren quasi ihre globale Mindeststeuer an arXiv abführen können, aber auch auf finanzkräftige Nonprofit-Organisationen, die als Affiliates einen Fair-Share des Nutzens, den sie von arXiv haben, mittragen wollen. Donors sind in der Regel Einzelpersonen, die im Rahmen von Giving-Weeks ein persönliches Zeichen der Dankbarkeit und der Unterstützung setzen wollen. Wie passend: anlässlich der diesjährigen Open-Acces-Week werden arXiv-Nutzer gerade von einem Donate-Banner empfangen.

Die Ansprache dieser neuen Gruppe ist seit ihrer Einführung sehr erfolgreich, für viele scheint es einfach eine Frage der Ehre zu sein, als Profiteur der arXiv-Dienste auch etwas zurückzugeben. Richtig stolz hat mich gemacht, dass auf einer Zusammenstellung der „Top 15 Funding Sources 2019 to present“ unser deutsches Konsortium arXiv-DH und HGF mit über $200.000 als erstes Konsortium auf Platz 5 landet, wir also für die deutsche arXiv-Community eine wesentliche Säule der finanziellen Stabilität von arXiv sind. Weil es so schön ist, hier ein kleiner Ausschnitt aus der Liste:

[table “14” not found /]

Das Charmante an dem Konzept der Sponsoren und Affiliates ist, dass diese Gruppen außerhalb der aktuellen Governance von arXiv stehen, die Gefahr, dass sich Elsevier, Google und Co. über ihre Beiträge einkaufen, also so klein wie möglich gehalten wird.

Für die technische Stabilität konnten weitere Meilensteine erreicht werden, um das System arXiv zukunftsfähig zu erhalten:

  • Überführung zentraler Dienste von arXiv in Cloud-basierte Dienste
  • Bereitstellung neuer Dienste auf der Google Cloud Plattform
  • Stillegung veralteter lokaler Infrastrukturen

Weitere für die Nutzer:innen von arXiv als Informationsplattform relevante Dienste sind ebenfalls als neue Lösungen umgesetzt worden – vielleicht ist das der Einen oder dem Anderen bereits aufgefallen:

Für die produktive Kooperation mit externen Tüftler:innen in arXivLabs hat das Team inzwischen einen Workflow aufgestellt. Die entstandenen Tools lassen sich drei Funktionen zuordnen und sind als Reiter unter den einzelnen Artikeln zu finden:

In Kürze wird es mit Influence Flower eine visuelle Darstellung des wissenschaftlichen Einflusses von akademischen Instanzen wie Personen, Projekten, Institutionen, Konferenzen und Zeitschriften geben.

Es lohnt sich, das Spielkind herauszulassen und den Nutzen dieser Gimmicks zu erkunden (Aha-Effekte sind vorprogammiert). Eindrucksvolle Beispiele sind bei der Erstveröffentlichung zu GW150914 zu sehen.

Ohne seine Moderator:innen wäre arXiv nicht existent. Alle (und das sind bekanntlich viele) bei arXiv eingereichten Paper durchlaufen die Moderation, bevor sie veröffentlicht werden:

  • 650 bis 1.200 neue Paper pro (Arbeits)Tag sowie
  • 450 bis 1.000 andere Submissions, wie zum Beispiel Replacements

Dementsprechend ist eine zweckmäßige Moderationsoberfläche essenziell: Leicht und intuititiv bedienbar sollten ihre Funktionalitäten eine zügige Bearbeitung der Paper ermöglichen und den gesamten Workflow des Prozesses gut unterstützen, damit sowohl Moderator:innen als auch der arXiv User Support nur so viel wie nötig zu tun haben. (Ein weiterer Faktor für die Stabilität des Systems.) Aktuell gibt das Team circa 5.000 Hilfestellungen pro Quartal, zum Beispiel bei der LaTex-Prozessierung im Einreichungsprozess, bei der Korrektur von Metadaten, beim Account-Management, … Im Bereich der Moderation fallen circa 2.000 Vorgänge pro Quartal an, unter anderem Fragen zum Status einer Submission in der Warteschlange, Einsprüche gegen Moderatorenentscheidungen oder Diskussionen mit (erzürnten?) Autor:innen. Ein Schwerpunkt der technischen Entwicklung war daher auch die Entwicklung des Moderationstools arXivCheck. Wie das Ergebnis aussieht, demonstriert der Moderator von CS.LG Tom Dietterich in seinem YouTube-Video.

Die Frage der Einbettung von arXiv in das ganze System des Scholarly Publishing wird von Wissenschaftler:innen im arXiv Scientific Board häufig als irrelevant angesehen. Das ist durchaus nachvollziehbar:

  • viele der SAB-Mitglieder kommen aus Communities, für die arXiv zentral ist,
  • die überwiegend amerikanischen Mitglieder haben im Gegensatz zu ihren europäischen Kolleg:innen (noch) keine Open-Access-Mandate von Forschungsförderen zu berücksichtigen und last but not least
  • das revolutionäre Erbe: arXiv wäre nicht so erfolgreich gewesen, wenn es sich nicht als Gegenbewegung zum allgemeinen Publikationswesen verstanden hätte. arXiv als Teil des Systems zu verstehen, mag dem Einen oder der Anderen wie eine Konterrevolution vorkommen.

Nichtsdestoweniger sind insbesondere das arXiv Member Advisory Board sowie das arXiv-Team und auch einzelne Wissenschaflter:innen in Sorge um den Fortbestand von arXiv, wenn es als Solitär unvernetzt neben dem Scholarly Publishing und seinen Anforderungen steht. Als Informationsdienstleister:innen haben wir zum Beispiel häufig Klagen von Wissenschaftler:innen gehört, dass sie ihre arXiv-Paper zusätzlich händisch in andere relevante Systeme wie lokale Repositorien oder Foschungsinformationssysteme übertragen müssten. Ob man da nicht einfach einen Knopf drücken könnte, der die Informationen von einem System in das andere schiebt?

Wunderbar wäre das, es ist aber (leider) nur möglich, wenn die Paper ordentliche Metadaten haben, über die unter anderem

  • die Autorenschaft,
  • die Affiliation,
  • das Paper,
  • Förderinformationen,
  • ggf. die Konferenz

eindeutig identifiziert werden können.

Das alte pragmatisch am instantanen Bedarf der Nutzer:innen orientierte Metadatenmodell hat arXiv viele Jahre lang gut gedient, inzwischen reicht es nicht mehr aus, um den aktuellen Ansprüchen an Vernetzung entgegenzukommen. (Nebenbei bemerkt, es hindert arXiv auch daran, saubere Nutzungsstatistiken zu erstellen, die wiederum Basis für die Berechnung von Beiträgen im Finanzierungsmodell sind.) Die gute Nachricht ist, dass das im vergangenen Jahr entwickelte neue Metadatenmodell wesentlich strukturiertere und zeitgemäße Metadatenfelder bietet und die Einbindung eindeutiger Identifier vorsieht, wie zum Beispiel ORCIDs für die Autor:innen oder RORs für ihre Affiliations. Die Registrierung von DOIs für die arXiv-Paper wird Anfang nächsten Jahres anlaufen.

Durch diese Maßnahmen erreicht arXiv auch die lang ersehnte Compliance mit Open-Access-Mandaten von Forschungsförderern wie zum Beispiel des ERC in Horizon Europe:

The ERC supports the principle of open access to the published output of research as a fundamental part of its mission. The ERC Scientific Council recommends the use of arXiv (https://arxiv.org) as repository for publications in the Physical Sciences and Engineering.

Das ERC hat Worten Taten folgen lassen und einen Grant für die Umsetzung der Compliance bereitgestellt. Manchmal werden Träume wahr!

Zur letzten Säule, zur organisatorischen Stabilität: Nachdem arXiv 2001 mit Paul Ginsparg vom Los Alamos National Laboratory an die Cornell University umgezogen ist, ist es viele Jahre lang von der Cornell University Library betreut und betrieben worden. 2019 ist die Verantwortlichkeit für arXiv dann auf Cornell Computing and Information Science CIS und seinen damaligen Dean Greg Morrisett übergegangen. Als arXiv-Enthusiast hat Greg Morrisett mit seinem Wechsel auf die Stelle als Dean und Prorektor von Cornell Tech seine Verantwortung nicht abgegeben, sondern arXiv quasi mitgenommen. Ich denke, dass dies deutlich zeigt, dass arXiv in seiner 30-jährigen Geschichte nie eine beständige organisationelle Anbindung, ein richtiges Zuhause gefunden hat, Reibungsverluste, zum Beispiel was Zuständigkeiten im Bereich Human Resources oder die Bereitstellung von Arbeitsplätzen angeht, inbegriffen.

Ein Phänomen, das arXiv mit vielen Informationsdienstleistern als Infrastruktureinrichtungen für Forschende gemeinsam hat: auch andere Bibliotheken können ein Lied davon singen, wie schwer es ist, bei knapper werdenden Ressourcen Forschung zu unterstützen, ohne dass der eigentlichen Forschung Mittel entzogen werden. (Ich nenne hier nur das Stichwort Globale Minderausgabe.) Selbstverständlich hat arXiv das ehrenwerte Ziel, seine Kosten so gering wie möglich zu halten. Knappe Ressourcen führen aber zu einer hohen Arbeitsbelastung aller Beteiligten und machen Prioritätensetzungen nötig, die Vermittelung und Durchsetzung dieser Prioritäten braucht wiederum eine eindeutige Governancestruktur. Wer der „Bestimmer“ von arXiv ist – sind es die Wissenschaftler:innen mit Scientific Director oder ist es das technische arXiv-Team mit Executive Director – beantwortet das aktuelle Governance Model nicht hinreichend, wie sich unlängst zeigte. Es ist einfach in die Jahre gekommen und muss dringendst angepasst werden, nachdem neue Postionen geschaffen worden sind. Ein wesentliches To-Do, das sich arXiv für die nächsten Wochen auf die Agenda gesetzt.

Ich drücke die Daumen, da sehr deutlich geworden ist, dass sich die Aspekte finanzielle, technische und organisatorische Stabilität nicht unabhängig voneinander denken lassen. Vielleicht erfüllt sich ein weiterer Traum und die größten Geldgeber Simons Foundation und Cornell University finden eine nachhaltige Lösung, zum Beispiel in Form einer Stiftung für arXiv.

Wer weiterlesen möchte, kann sich in den Jahresbericht 2020 von arXiv vertiefen. Hier gibt es neben spannenden Zahlen auch interessante Definitionen der Mission, der Vision und der Werte von arXiv sowie Ausführungen zu Strategie, Identität und Community.

Eine wichtige Community hat arXiv: Nobelpreisträger:innen. Es hat mich sehr gefreut festzustellen, dass Giorgio Parisi auf ein fast 30-jähriges Wissenschaftlerleben mit arXiv zurückblicken kann: Sein erstes Paper wurde im Mai 1992 eingereicht, das (bisher) letzte stammt aus dem August 2021. Ein Geburtstagsgeschenk? Congratulations and Happy Birthday arXiv – All the Best for Another 30 Years!!!

... ist Fachreferentin für Physik und zuständig für die Nationale Kontaktstelle im Netzwerk arXiv-DH