Mit UMBIKO in Richtung Open Research Analytics

read this article in english

Forschungseinrichtungen jeglicher Art sammeln kontinuierlich riesige Sammlungen von unterschiedlich formatierten und heterogenen Daten, die für unterschiedliche Zwecke gespeichert sind. Analysen der gesammelten Datensätze sind jedoch in der Regel nicht leicht verfügbar. Es ist daher sowohl für Forschende als auch für die Forschungsadministratiom sehr schwierig, die Daten zu analysieren oder sogar in Teilmengen zu filtern. So werden häufig Wochen oder Monate damit verbracht, stets wiederkehrende Verarbeitungsschritte zu wiederholen, um einfache analytische Fragestellungen zu beantworten. Dies trifft umso mehr zu, da immer mehr die Notwendigkeit von und der Wunsch nach kuratierten Berichte und Vorhersagen zu Forschungsinformationen besteht.

Derzeit erstellen Institute Berichte meist entweder manuell (mit hohem Arbeitsaufwand) oder verwenden kommerzielle Produkte (mit hohen Kosten). Große Institute haben in der Regel die Mittel, um für kommerzielle Dienstleistungen zu bezahlen. Dabei bleiben sie aber von diesen Dienstleistern abhängig, insbesondere wenn Änderungswünsche an den Systemen bestehen. Kleine und mittelgroße Institute verfügen möglicherweise nicht über die erforderlichen Mittel für diese Dienstleistungen oder auch um Mitarbeiter für manuelle Analysen und die Berichterstattung zu beschäftigen.

A sample Kibana dashboard with VIVO data
Beispiel eines Dashboards mit Kibana

Der Umbiko-Prototyp wurde initiiert, um Herausforderungen im Bereich der On-the-go-Analysen und der Berichterstattung über Forschungsinformationen aus Forschungsinformationssystemen (FIS) wie VIVO und verschiedenen Korpora der TIB zu bewältigen. Der Prototyp basiert auf der Open-Source-Suchmaschine Elasticsearch und dem Open-Source-Analyse- und Visualisierungstool Kibana. Sobald Daten in Elasticsearch indiziert sind, können mit Umbiko innerhalb weniger Minuten angepasste interaktive Dashboards erstellt und in andere Systeme eingebaut werden. Für spezialisierte Visualisierungen stellt Umbiko auch eine Proxy-API über Elasticsearch zur Verfügung, mit der auch sehr spezielle Suchanfragen erfüllt und Visualisierungen einfach über beliebige Visualisierungsbibliotheken realisiert werden können. Zu Demonstrationszwecken verwendet Umbiko die Javascript C3-Bibliothek für Beispielvisualisierungen.

Wie geht es nun weiter? Dieser Prototyp wurde als Seitenaktivität im Rahmen unserer VIVO-Aktivitäten entwickelt. Die in diesem Zusammenhang gewonnenen Erkenntnisse werden wir in Zukunft in verschiedene Projekte einbringen, um Forschungsinformationen für ein breiteres Publikum nutzbar und analysierbar zu machen. Ganz gleich, ob es sich um szientometrische Untersuchungen oder um Entscheidungshilfen für die Forschungsadministration handelt: Die Analyse von Forschungsinformationen sollte einfacher sein als sie es zur Zeit ist. Wir hoffen, mit Umbiko einen kleinen Schritt in diese Richtung gehen zu können.

Software Engineer in the Open Science Lab of the TIB