arXiv Update September 2018

Nein, ich habe das arXiv Update im Frühjahr nicht verschlafen, ein angefangener Beitrag liegt immer noch in meinem Ordner. Allerdings habe ich im März feststellen müssen, dass bei arXiv zwar viel getan und fleißig gearbeitet wird, viele Prozesse aber noch nicht so weit waren, dass dazu etwas wirklich Neues zu berichten gewesen wäre.

Jetzt aber! Zumal im Oktober – wenn Deutschland sich auf die Feier des Tags der Deutschen Einheit vorbereitet – sich das Member Advisory Board MAB in Ithaca, NY an der Cornell University treffen und über aktuelle Entwicklungen bei arXiv beraten wird.

Cornell University Ithaca NY. In der Mitte des Bildes die Olin Library, in der das Meeting stattfinden wird. By Cornell010 at English Wikipedia [Public domain], via Wikimedia Commons
In diesem Jahr werde ich für das Konsortium arXiv-DH und HGF hinfliegen. Anregungen, Ideen, Vorschläge, Einwände … nehme ich gerne mit. Gibt es Themen, Fragen, Positionen, die wir für die deutsche Community mit in das Meeting einbringen können? Wir freuen uns immer über Ihr Feedback, gerne auch über arXiv@tib.eu!

Es verspricht ein spannendes Meeting zu werden, da mit dem organisatorischen Wechsel von arXiv zu Cornell Computing and Information Science CIS positive Veränderungen zu erhoffen sind, und vielleicht wird ja auch die eine oder andere arXiv-Labs-Idee schon vorgestellt werden …

Viele der Themen des Meetings am 2. Oktober 2018 sind keine vollständig neuen, sondern fallen eher in die Kategorie „Dauerbrenner“, was aber belegt, wie wichtig sie sind. Schauen wir auf die vorläufige Agenda des Treffens, so finden wir die Punkte:

  • Bericht über arXiv und Entwicklungen im letzten Jahr
    • Was tut sich bei arXiv-NG: Wie geht die Entwicklung der neuen Plattform für arXiv voran? (NG steht für Next Generation)
    • Bericht zur IT-Roadmap
    • Bericht des Program Managers Oya Rieger
    • Bericht des Scientific Director Steinn Sigurdsson
    • Moderation Update durch den Operations Manager Jim Entwood
    • Bericht aus dem Scientific Advisory Board
  • arXiv im Kontext von institutionellen Repositorien, Open-Access-Mandaten und einer wachsenden Landschaft an Preprint-Servern
  • Möglichkeiten der Kooperation mit (verlegenden) Fachgesellschaften (Scientific Societies und Society Publishers)

Das bevorstehende Meeting ist aber auch ein guter Anlass um jetzt hier im Blog endlich über weitere Neuigkeiten, neben dem Umzug zu CIS, zu berichten:

Funktionalitäten

Die Erweiterung von arXiv um die Teildisziplinen Applied Physics (physics.app-ph), Electrical Engineering and Systems Science EESS und Economics Econ ist von den Communities so gut angenommen worden, dass im Juli noch Theoretical Economics econ.TH und General Economics econ.GN hinzugekommen sind.

[table “12” not found /]

arXiv-NG

So schön es ist, wenn der neue Scientific Director von arXiv Steinn Sigurdsson wie so viele begeisterte arXiv-Nutzer*innen feststellen kann: „arXiv runs on magic“, für die Nachhaltigkeit eines Systems ist es sicherlich besser, wenn die Zauberformel bekannt ist. (Was auch die Serverausfälle in den letzten Monaten sehr deutlich machten.)

So hat sich das arXiv-NG-Team darangemacht, die Architektur des bestehenden Systems umfassend zu dokumentieren und daraus die zukünftige Architektur abzuleiten. (Kritische) Abhängigkeiten weiterer Entwicklungsschritten konnten so identifiziert werden. Darauf aufbauend wurde die Liste weiterer Wünsche und Anforderungen an das neue arXiv in die Planungen einbezogen.

Ein wesentlicher Schritt war es, Festlegungen zu treffen, wie Entwicklungen in Zukunft geplant und priorisiert werden. Personalplan und Verantwortlichkeiten sind angepasst worden, um für mehr Kontinuität der Arbeit rund um arXiv-NG zu sorgen, wie in Planning, prioritization, and getting things done in arXiv-NG nachzulesen ist.

Das arXiv-NG-Team hat sich für ein „Classic Renewal“ von arXiv entschieden, d.h. das bestehende System über die nächsten zwei Jahre schrittweise und modular zu erneuern. Ursprünglich war auch die Entwicklung eines komplett neuen Systems mit einmaliger Migration angedacht worden. Inzwischen steht aber die Robustheit der arXiv-Dienste im Vordergrund, die besser über eine schrittweise Reimplementierung wesentlicher Module gewährleistet werden kann. Hierzu werden auch neue Frameworks wie Flask oder Container-Anwendungen mit Docker und Kubernetes getestet.

Eines der ersten Projekte dieser neuen Vorgehensweise des modularen Entkoppelns der arXiv-Architektur ist bereits für den Nutzer sichtbar: Die Verbesserung der arXiv-Suche war auch einer der wesentlichen Wünsche bei der arXiv-Nutzerumfrage. Die Suche basiert nun auf einem Elasticsearch Cluster, der via Cloud Computing betrieben wird.

arXiv Search v0.1 ging im April online, mit v0.2 und v0.3 wurden im Mai offensichtliche Fehler behoben und weiteren Nutzerrückmeldungen entsprochen. (Gebt uns unsere Volltextsuche wieder …). Im Juli brachte v0.4 weitere Funktionalitäten, die ebenfalls häufig von den Nutzer*innen angefragt wurden.

Da ein wesentliches Element von arXiv-NG die Offenheit der Entwicklung ist, werden neue Software-Releases im arXiv Public Wiki veröffentlicht und auf GitHub dokumentiert.

Möglich wurde diese Neuaufstellung u.a. durch Grants der Sloan Foundation und der Heising-Simons Foundation.

Organisationsstruktur

In den letzten Updates habe ich davon berichtet, dass die Organisation von arXiv dahingehend aufgeräumt werden sollte, dass es festere Zuständigkeiten mit höheren Stellenanteilen für arXiv, insbesondere in den Bereichen IT und Operation gibt. Das ist inzwischen erfolgreich umgesetzt worden, wie im Organizational Model zu sehen, und trägt meiner Beobachtung nach erste Früchte.

Außerdem erleichtert es den für den Januar 2019 anstehenden Übergang in die organisatorische Zuständigkeit bei CIS: Das Team bleibt bestehen, nur die oberste Aufsicht geht auf den Dean von CIS über, wie es das Organigramm 2019 vorsieht.

Finanzierung

In meinem arXiv Update September 2017 hatte ich erste Eckpunkte des 2018-2022: Sustainability Plan for Classic arXiv, insbesondere die neue Fee-Struktur bereits beschrieben.

[table “7” not found /]

Was damals noch nicht ganz ausformuliert waren die weiteren Einnahmequellen, die ich hier aktuell wiedergebe:

  • Die Cornell University Library beteiligt sich mit einem Zuschuss von $170.000.  (Und übernimmt zusätzlich alle indirekten Kosten von arXiv, was aktuell ca. 37% der Betriebskosten ausmacht). Diese Gelder sollen ab 2019 von Cornell CIS übernommen werden.
  • Die Simons Foundation stockt den Beitrag der übrigen Mitglieder um einen Matching Grant von maximal $300.000 auf und erkennt zudem die Leistung der CUL als Betreiberin von arXiv mit einer zusätzlichen Summe von $100.000 an.
  • Über die Membership Fees hat arXiv für 2017 fast $450.000 erhalten.
  • Hinzu kommen Einnahmen aus Spenden in Höhe mehr als $90.000 für 2017
  • Die Einnahmen aus den Grants u.a. von Sloan Foundation and Heising-Simons Foundation kommen dem Projekt arXiv-NG zu Gute.

Im arXiv Public Wiki lassen sich die exakten Aufstellungen der Einnahmen und Ausgaben finden.

Untergegangen ist mir auch zu erwähnen, dass sich sie Zuordnung zu den Tiers für das zu berechnende Jahr (z.B. 2018) nicht mehr ausschließlich auf die Downloadstatistik des Vorjahres (z.B. 2017), sondern rollend auf die der drei vorangehenden Jahre (hier 2014-2016) bezieht. Das hat für die Einrichtungen natürlich den Vorteil, dass keine zu starken Sprünge bei der Rechnungsstellung zu befürchten sind. In arXiv-Zahlen 2017 habe ich das Prinzip am Beispiel der Einrichtungen in arXiv-DH erläutert.

arXiv Roadmap

Und wer jetzt noch mehr erfahren möchte und Zeit zum Weiterlesen hat, kann sich über weitere Details des aktuellen Standes und weiterer Initiativen im arXiv Update – January 2018 und in der 2018 arXiv Roadmap informieren. Hier werden ebenfalls aktuelle Projekte und Planungen zu Technik, Moderatorensystem, Workflow und Businessmodell samt Status beschrieben.

... ist Fachreferentin für Physik und zuständig für die Nationale Kontaktstelle im Netzwerk arXiv-DH