Forschungsinformationssystem@Fraunhofer-Gesellschaft

Projekthintergrund

Fraunhofer-weit gibt es seit langem etablierte Prozesse und Kennzahlensysteme, die die missionsbedingte und förderbedingte Systematik des »Fraunhofer Modells« kontrollieren. Im Rahmen der Corporate Responsibility wird dabei zunehmend auch die Sicherung der wissenschaftlichen Integrität und Exzellenz adressiert.

Diese Dimension der wissenschaftlichen Qualität und Exzellenz wurde bisher jedoch nicht im Rahmen von Datenerhebungen und Kennzahlensystemen betrachtet.
Daher wurde in der Fraunhofer-Gesellschaft ein Kennzahlen-basiertes Monitoring basierend auf verschiedenen Kennzahlen aus den Bereichen wissenschaftlicher Output, wissenschaftliche Qualifikation und wissenschaftliche Anerkennung und Vernetzung eingeführt, das auch dazu dienen soll, einen Fraunhofer-internen Diskurs zum Thema wissenschaftliches Arbeiten und wissenschaftliche Exzellenz anzuregen und eine verlässliche Datenbasis für interne Zwecke, aber teilweise auch für den Außenraum zu schaffen (Monitoringbericht im Rahmen des Pakts für Innovation und Forschung).

In einer zweijährigen Evaluierungsphase zw. 2013 und 2015 wurde die praktische Umsetzung sowohl der Datenerhebung bei den Fraunhofer-Instituten, wie auch des anschließenden Auswertungsprozesses getestet. Dabei erfolgte die Datenerhebung der Institutsdaten mittels Excel-Formularen.
Dann folgte der Beschluss, aus der Evaluierungsphase in einen verstetigten Prozess überzugehen und dabei die Erhebung/Erfassung der Institutsdaten mittels einer webbasierten Datenbankanwendung umzusetzen.
Ende 2015 wurde das Team Research Services & Open Science (RSOS) am Fraunhofer IRB beauftragt, parallel zur übergangsweisen Fortführung des bisherigen Erhebungsprozesses eine qualitätsgesicherte und datenbankgestützte Erhebung von Fraunhofer-Forschungskennzahlen (Wissenschaftsindikatoren) zu konzipieren, umzusetzen und im Regelbetrieb durchzuführen. Dieser Projektauftrag beinhaltet die folgenden Teilaufgaben:

  • Definition der Fraunhofer-spezifischen Anforderungen und Implementierung einer webbasierten Datenbankanwendung »Fraunhofer-FIS«, die die Eingabe der benötigten Institutsdaten durch die Institute selbst ermöglicht (»Fraunhofer-FIS« Entwicklung)
  • Durchführung einer Pilotphase zu Testzwecken mit einer begrenzten Anzahl an Test- bzw. Pilotinstituten (»Fraunhofer-FIS« Pilotphase)
  • Parallel zur Entwicklung und Pilotphase die Übernahme der Erhebung der Wissenschaftsindikatoren und die dazu notwendigen Datenabfragen bei den Instituten (noch) über Excel-Formulare bis zum Beginn des Regelbetriebs von »Fraunhofer-FIS« (Übergangsbetrieb)
  • Vorbereitung und Durchführung des Go-Live und anschließender Regelbetrieb des Systems (»Fraunhofer-FIS« Regelbetrieb)

Softwareauswahl

Rahmenbedingungen für die Softwareauswahl waren in erster Linie der fest terminierte zeitliche Umsetzungsrahmen (2016/2017 Marktsichtung, Vertragliches, Systemspezifizierung, Aufbau »Fraunhofer-FIS« Versionen Alpha, Beta und 1.0 ; 2017/2018 Pilotphase inkl. Auswertung und Nacharbeiten ; 2018/2019 Go-Live und Regelbetrieb) und die vorhandenen Personalkapazitäten (eine Teilzeitstelle übergeordnete Projektkoordination, eine Telizeitstelle Support und Kommunikation mit den Instituten und eine Vollzeitstelle Datenerhebung/Indikatorenberechnung und technische Umsetzung »Fraunhofer-FIS«).
Der bereits klar umrissene Anforderungskatalog stand im Vordergrund, insbesondere auch die Notwendigkeit der technischen Abbildung der Fraunhofer-Organisationsstruktur im zukünftigen Erfassungstool und die Möglichkeit eines hierarchischen und arbeitsteiligen Erfassungs- und Kontrollworkflows.

Die Marktrecherche bezog sich vor allem darauf, welches System soweit wie möglich standardmäßig die Anforderungen erfüllt und inwieweit man durch Systemanpassungen die noch nicht erfüllten Anforderungen umsetzen kann. Bereits bei ersten Marktrecherchen wurde klar, dass eine Umsetzung mittels Open Source Software große Vorteile hat (vor allem der finanzielle Aspekt, aber auch die “Ungebundenheit” im Gegensatz zur (Anpassungs-)Abhängigkeit von einem kommerziellen Anbieter).

Daher fiel die Wahl auf die Open Source Software DSpace-CRIS. Sie wird auf der DuraSpace-Seite beschrieben als „the first free open-source extension of DSpace for the Research Data and Information Management ever developed“.
DSpace-CRIS bietet im Gegensatz zu DSpace, das als reine Repository-Software konzipiert ist, neben der Möglichkeit der Erfassung und dem Management von Publikationsdaten, standardmäßig auch die Entitäten „Projects“, „Researcher Pages“ (Normdatensätze zu Personen) und „Organisational Units“ (Normdatensätze zu Organisationen/Einrichtungen). Zudem lässt es die flexible Datenbankstruktur zu, mit vertretbarem Aufwand und vor allem ohne (Datenbank-)Programmierung, weitere benötigte Entitäten zu ergänzen.
Bereits die Standard-/Community-Version von DSpace-CRIS bietet die Möglichkeit mittels verschiedener Rollen und Berechtigungsstufen, einen hierarchischen Bearbeitungsworkflow mit Kontrollebenen zu definieren.
Zudem bestand bei der Nutzung der Software DSpace-CRIS die Möglichkeit, im Rahmen eines projektbegleitenden Supportvertrags auf externe Beratungs- und Unterstützungsleistungen durch einige, maßgeblich an der DSpace-CRIS Entwicklung beteiligter Experten, zurückgreifen zu können.
So konnte einerseits eine steile Lernkurve innerhalb des eigenen Teams sichergestellt werden, andererseits aber auch nachhaltig und vorausschauend angepasst und erweitert werden, damit das Einspielen zukünftiger Software-Updates möglichst komplikationslos erfolgen kann.

Implementierung und Anpassung von DSpace-CRIS

Der komplette Implementierungsprozess von »Fraunhofer-FIS« bestand aus einer ersten Systemspezifizierung, der Implementierung der Versionen Alpha, Beta und 1.0, sowie jeweils einer anschließenden Test- und Korrekturphase.
Dieser gesamte Prozess begann ca. Juni 2016 und ist aktuell noch im Gange, da einige “Hintergrundanpassungen” auf den Zeitraum nach der Pilotphase (von ca. Oktober 2017 bis Februar/März 2018) verschoben wurden und zudem durch die Pilotphase neue Anforderungen aufkamen.
Im Rahmen der Anpassung der DSpace-CRIS Community-Version an die Fraunhofer-Vorgaben und der Systemtests wurde Stand jetzt an die 200 Tickets in das Ticketsystem des externen Dienstleisters erfasst und abgearbeitet.
Der Go-Live ist aktuell für November 2018 geplant, damit um den Jahreswechsel herum die Institute ihre Daten des Erhebungsjahrs 2017 eingeben können.

Nachfolgend sind die grundlegenden speziellen Fraunhofer-Vorgaben/-Anforderungen an das System zusammengefasst:

  • Neben den standardmäßig bereits „mitgelieferten“ DSpace-CRIS-Entitäten „Projects“, „Researcher Pages“ und „Organisational Units“ mussten noch weitere DSpace-CRIS-Entitäten implementiert werden, wie z. B.:
    • Preise
    • Sprecherrollen
    • Lehrtätigkeiten

    Promotionen und Abschlussarbeiten werden als „spezielle“ Publikationen als standardmäßiges DSpace Item (also nicht als besondere CRIS-Entität) gehandhabt.

  • Entsprechende Vorgaben für die Erfassungsmasken (Pflichtfelder, Format der Feldwerte, Auswahllisten/Dropdowns, Vorschlagslisten basierend auf Normdatensätzen (Fraunhofer-Mitarbeiter*innen, Hochschulen), weitere Plausibilitätsprüfungen hinsichtlich eingegebener Feldinhalte)
  • Möglichkeit, kumulierte Werte und Indikatorenwerte zu berechnen bzw. zu erfassen und zu speichern (sogenannte „Metrics“). z. B.:
    • Anzahl Promotionen, durch das System auch auf die Anzahl der Mitarbeiter*innen normiert/umgerechnet
    • Gesamtsummen zu einigen Indikatoren, durch das System auch auf die Anzahl der jeweiligen Mitarbeiter*innen des Instituts normiert/umgerechnet
    • Lehrtätigkeiten (Anzahl Semesterwochenstunden) u. v. m.
  • Berechtigungskonzept mit verschiedenen Rollen (Data Collector, Data Controller an den Instituten, Data Validator zentral durch das Team Research Services & Open Science am Fraunhofer IRB)
  • Darauf basierend hierarchische Arbeitsstrukturen bzw. ein Workflow mit Erfassung, Kontrolle (inkl. Ablehnung / „Rücksendung“ von Datensätzen) und zentraler Validierung/Prüfung der Institutsdaten und Wertung für die Indikatorik oder ggf. auch nicht.
  • Abbildung des Fraunhofer Institutsbaums mit ca. 65 Fraunhofer-Instituten, teilweise mit Datenerfassung auch für Institutsteile (nicht alle Institute sind relevant)
  • Abgeschottete und nur per Login zugängliche „Institutsbereiche“
  • Simplifizierung der Standard- Web-Oberfläche und einfache Anpassungen an das Fraunhofer-Design
  • Verbesserungen des sogenannten „MyDSpace“-Bereichs (Arbeitsplatz nach dem Einloggen, der über die im Workflow befindlichen Datensätze und deren Stati informiert und Aktionen ermöglicht)
  • Kontrolle und “Weiterleitung” von Datensätzen als Batch-Funktion (mehrere Datensätze auf einmal aus einer Übersichtstabelle heraus, anstatt jeder Datensatz einzeln)
  • Nutzung bereits eingegebener Datensätze als “Vorlage” für neue Erfassungen
  • Vorgaben für die sogenannten Institutshomepages (OrgUnit Pages – Übersichtseite für jedes Institut, auf der die validierten und archivierten Datensätze angezeigt werden)
  • Upload-Möglichkeit für die endgültigen Ergebnisberichte (nur für System-Admin)
  • Notwendige Umsetzung aufgrund von Forderungen des Gesamtbetriebsrats und der DSGVO
  • Bestimmte Konfiguration des automatischen E-Mailversands aus dem System heraus
  • Übersetzung „des Systems“ ins Deutsche

Letztendlich wurde doch eine erhebliche Modifizierung der Standard-/Community-Version von DSpace-CRIS erforderlich.

Bewertung der Eignung von DSpace-CRIS

Wir bewerten die Eignung von DSpace-CRIS bewusst lediglich auf den speziellen Fraunhofer-Anforderungskatalog. Es mag durchaus Nutzungsaspekte und Einsatzszenarien geben, die hier in der Bewertung nicht berücksichtigt werden können. Dies bitten wir zu berücksichtigen und gegebenenfalls auch andere DSpace-CRIS Bewertungen (z.B. beim Einsatz als öffentliches Repository System oder im Einsatz mit anderen Depositprozessen) in Betracht zu ziehen.
Insgesamt können wir sagen: Die Software DSpace-CRIS mit ihren standardmäßig vorhandenen Features und der enormen Flexibilität der Middleware erwies sich als äußerst positiv und hilfreich im Hinblick auf die spezielle Zielsetzung bzw. den zu erfüllenden Zweck. Folgendes lässt sich konkretisieren:

  • Hohe Flexibilität des Systems im Hinblick auf die zu erfassenden Daten (Hinzufügen neuer Entitäten und neuer Felder möglich)
  • Viele Anpassungs- und Ergänzungsmöglichkeiten (Systemkonfiguration) ohne Programmieraufwand (teilweise über Web-Oberfläche, teilweise über Konfigurationsdateien auf dem Server)
    • Neue Entitäten (Collections)
    • Neue Felder
    • „Inhaltliche“ Gestaltbarkeit der Erfassungsmasken und deren Logik (welche Felder, welcher Feldtyp, Hinweistexte, Kontroll- und Plausibilitätsregeln, Inhalt von Auswahllisten/Dropdowns)
    • Möglichkeit von Anpassungen an der im System hinterlegten Institutsstruktur (Communities- und Collectionsbaum) bei z. B. Institutsneugründungen, -aufspaltungen, -fusionen usw.
    • Anpassungen Datenanzeige (inkl. Filter- und Sortiermöglichkeiten)
  • Workflow- und Berechtigungskonzept, das hierarchische und arbeitsteilige Abläufe ermöglicht
  • Validierung / Bewertung von Datensätzen zentral möglich
  • Datensätze können als relevant für die Berechnung Indikatorenwerte oder nicht relevant markiert werden
  • „Abgeschottete Datenbereiche“ für jede Organisationseinheit einrichtbar
  • Besonderes, systeminternes Handling (eigene und spezielle DB-Tabelle) von frei definierbaren Kennwerten und (bis zu einem gewissen Grad) Möglichkeit, damit Berechnungen durchzuführen und die Ergebnisse wieder als aggregierte Kennwerte zu speichern (sogenannte DSpace-CRIS „Metrics“)

Da es teilweise sehr spezielle Fraunhofer-Anforderungen gab bzw. das bisherige Prozedere der Erhebung von Wissenschaftskennzahlen (basierend auf Daten in Excel-Tabellen) über viele Zwischenschritte lief und dabei einige Datenzusammenfassungen, Bereinigungen, Berechnungen und auch grafisch aufbereitete Kontrollausgaben umfasste, war schnell klar, dass das bisherige Gesamtprozedere nicht 1:1 und komplett in einer Datenbankanwendung umgesetzt werden kann.
Es gibt daher auch Bereiche und Aspekte, die nicht oder nicht in dem idealerweise erhofften Umfang mittels DSpace-CRIS verwirklichbar sind bzw. wo man Kompromisse eingehen muss, was aber wohl auch bei jedem anderen (freien oder kommerziellen) Produkt der Fall gewesen wäre:

  • DSpace-CRIS ist eher ausgelegt auf „Einzelorganisation“ bzw. Organisationen mit unselbstständigen Bereichen/Abteilungen usw. Eine DSpace-CRIS-Instanz im Hinblick auf die Fraunhofer-Struktur mit Zentrale und ca. 65 weitgehend selbstständigen Instituten und Institutsteilen (nicht alle Institute sind relevant) erfordert ein spezielles Handling, führt zu neuen Bedarfen (wie etwa dem Management der Änderungslogik, etwa bei Organisationsänderungen).
  • Standardmäßig eher ungeeignet, wenn massenweise Datensätze manuell erfasst werden müssen. Dies ist aber bei der Heterogenität der zu erfassenden Daten bei Fraunhofer (besonders der akademischen Daten bei Kooperationsverträgen mit derzeit 64 Unis und 48 Fachhochschulen tatsächlich ein großer Faktor).
  • Export- und Import:
    • DSpace Items und DSpace-CRIS Entities können über mehrere Wege (teilweise über Web-UI, teilw. über Server/Kommandozeile) im- und exportiert werden: XLS Import and Export Tool, Package Importer and Exporter, Simple Archive Format, DBMS Import Framework
    • Standardmäßig werden diese Export und Importmöglichkeiten nur für “Hauptadministratoren” angeboten, die dann aber auch an andere Konfigurationsoptionen „rankommen“, was nicht immer unbedingt gewünscht ist. Es würde also einen gewissen Zusatzaufwand erfordern, “Institutsadministratoren” einzurichten, die dann auch und nur die Import-/Exportfunktionalitäten nutzen können.
    • Zudem gibt es unterschiedliche Importverfahren mit unterschiedlichen Struktur-/Syntaxvorgaben für die Importdateien, je nachdem, ob es sich um DSpace Items (z. B. Promotionen und Abschlussarbeiten) oder um DSpace-CRIS-Entitäten handelt (z. B. Preise und Projekte)
    • Aus technischen Gründen, wegen des enormen Zeitaufwands auf Seiten des Teams
  • Reporting- bzw. Analysemöglichkeiten sind nicht vorhanden. Hier muss ggf. mit angedockten externen ETL- bzw. Reporting- und Analyse-Tools gearbeitet werden bzw. müssen selbst DB-Abfragen per SQL oder Abfragen des Apache SOLR Index erstellt werden.

Fazit

Unser Hauptaugenmerk lag auf der Umsetzung der bereits bestehenden und erprobten Einforderung/Erfassung von Daten der Fraunhofer Institute per Excel-Formular hin zu einer datenbankgestützten Erfassung der Daten durch die Institute selbst.
Dabei war insbesondere wichtig, den Instituten so viel wie möglich “Erfassungskomfort” zu bieten und durch Pflichtfelder, Plausibilitätsprüfungen, Auswahllisten, Vorschlagslisten, hinterlegten Normdatensätzen die Qualität der erfassten Daten möglichst hoch zu halten und zu einer Art “Vorvalidierung” der Daten bereits bei der Erfassung zu kommen.
Dieser Part konnte sehr gut umgesetzt werden.

Aus den gerade genannten Gründen, sowie auch aus technischen und aus Gründen der Verfahrens- und Datensicherheit wurde das Thema Datenimport (sowohl durch die Institute selbst oder auch nur zentral durch das Team Research Services & Open Science) zwar lange diskutiert, dann aber beschlossen, keinen Datenimport anzubieten, sondern nur auf die manuelle Eingabe zu setzen.

Ein weiterer Vorteil von DSpace CRIS ist der Open Source Character. Dabei war der Zeitgewinn durch die Vermeidung langer Ausschreibungsfristen für kommerzielle Produkte ein Erfolg, aber auch die monetären Aspekte einer lizenzfreien Software sind sehr positiv und werden inzwischen klar gesehen. Wir hoffen auf ein schlankes Softwaremanagement, vor allem auch durch die umgangenen Anbieterverpflichtungen und die damit verbundenen Systemabhängigkeiten (Releasezyklen, Fremdbestimmung bei Softwareadaption und Anpassung). Da außerdem zeitgleich in einem Parallelprojekt ein neues Forschungsdatenmanagementsystem auf Basis von DSpace aufgebaut wird, wird der Einsatz derselben Open Source Softwarefamilie sicherlich viele Synergien bringen.

Softwaretechnisch ist das System sehr flexibel, was die Erweiterungsmöglichkeiten im Hinblick auf Entitäten, Metadatenschemata und –felder, Erfassungsmasken usw. angeht. Aber auch wenn dies alles ohne Programmierung im eigentlichen Sinne machbar ist, ist hierfür Einarbeitungszeit und ggf. Schulungen notwendig. Dies bedeutet, um eine DSpace-/DSpace-CRIS Anwendung zu administrieren und Anpassungen im Rahmen der Konfigurationsmöglichkeiten vorzunehmen, bedarf es „lokaler Spezialisten“ und einer gut ausgestatteten IT-Architektur.

Auch wenn nicht der komplette Prozess der Erhebung von Wissenschaftskennzahlen und die Berechnung von Indikatorenwerten über die DSpace-CRIS-Anwendung »Fraunhofer-FIS« abgelöst werden kann, ist sie im Hinblick auf die besser und mit weniger personellem Aufwand zu gewährleistende Datenqualität, sowie die Abfragemöglichkeiten auf eine Datenbank bzw. einen Apache SOLR Index trotzdem ein erfolgreicher Schritt nach vorne.
Im Hinblick auf die teilweise große Anzahl an Datensätzen, die an den Instituten kontrolliert und an das Team Research Services & Open Science am Fraunhofer IRB zur Validierung weitergeleitet werden müssen, waren aber noch Systemoptimierungen notwendig.

Autoren: Michael Erndt, Ulrike Küsters; Fraunhofer IRB

Fraunhofer-Informationszentrum Raum und Bau
Competence Center Research Services & Open Science

Ulrike Küsters (ulrike.kuesters@irb.fraunhofer.de)
Michael Erndt (michael.erndt@irb.fraunhofer.de)

Nobelstraße 12
70569 Stuttgart

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.