Das TIB AV-Portal in 2023: KI-basierte Spracherkennung, High-Definition und dynamisches Frontend

read this article in English

Das TIB AV-Portal ist eine offene und freie Plattform, die speziell für wissenschaftliche Videos konzipiert wurde. Es bietet zahlreiche Dienstleistungen für den fachgerechten Einsatz von AV-Medien in der Wissenschaft, darunter eine dauerhafte Zitierbarkeit, Langzeitarchivierung und zielgenaue Suche im Videoinhalt. Das Portal zeichnet sich durch ein werbefreies, sicheres und datenschutzgerechtes Umfeld aus, das maßgeschneidert auf die Bedürfnisse der akademischen Gemeinschaft zugeschnitten ist.

Seit 2018 wird das Portal durch ein Scrum Team an der TIB weiterentwickelt, das aus vier Entwicklern, einem Product Owner und einem Scrum Master besteht. Das Team hat sich in den letzten Jahren weitgehend unabhängig von Drittanbietern gemacht, so dass es den größten Teil seiner Anforderungen selbstständig umsetzt. Seit 2021 berichten wir einmal im Jahr von unseren Weiterentwicklungen. In diesem Blogartikel stellen wir die neuesten Funktionen vor, die 2023 implementiert wurden.

Spracherkennung mit Whisper

Whisper ist ein KI-Modell, das von OpenAI entwickelt wurde und gesprochene Sprache in durchsuchbaren Text umwandelt. Es kann 97 Sprachen transkribieren, zahlreiche Sprachen ins Englische übersetzen sowie Akzente und Dialekte gut verarbeiten. Es zeichnet sich besonders durch seine hohe Genauigkeit und Effizienz bei der Sprachverarbeitung aus. Seit Juli 2023 werden alle neu hinzugefügten Videos mit Hilfe von Whisper transkribiert. Die Transkripte werden im AV-Portal zum einen als Untertitel genutzt und zum anderen als Notationen der gesprochenen Sprache, die durchsucht werden können. Nutzer haben die Möglichkeit, die Transkripte nach bestimmten Suchbegriffen zu filtern und direkt zu den entsprechenden Videoabschnitten zu navigieren. Darüber hinaus können die Transkripte heruntergeladen und für andere Anwendungsfälle genutzt werden.

Zukünftig werden wir auch die Übersetzungsfunktion von Whisper integrieren, um das mehrsprachige Suchen und Verstehen zu verbessern. So wird es möglich sein, in spanischsprachigen Videos mit englischen Begriffen zu suchen und sich passende englische Untertitel anzeigen zu lassen. Geplant ist auch, den alten Bestand des AV-Portals mit Whisper neu zu transkribieren, um die Vorteile der höheren Erkennungsgenauigkeit im Vergleich zu den alten Sprachmodellen zu nutzen.

Von Standard zu High Definition

Früher wurde das Media Asset Managementsystem (MAM) eines Drittanbieters verwendet, um Videoderivate zu erstellen. Die Videoqualität war dabei knapp unter HD. Mittlerweile erzeugen wir in Eigenregie mehrere Derivate in verschiedenen Auflösungen, von 240p bis 1080p (Full HD). Diese Derivate werden aktuell noch über das MAM ausgeliefert, was sich aber in absehbarer Zeit ändern wird (siehe Ausblick). Die HD-Qualität, die wir heute im AV-Portal anbieten, übertrifft deutlich die alte Qualität. Besonders auffällig ist dies bei Folien mit kleiner Schrift, die nun wesentlich klarer lesbar sind. Standardmäßig spielen wir das Derivat mit der höchsten verfügbaren Auflösung aus, wobei die Nutzerin die Möglichkeit hat, verschiedene Qualitätsstufen auszuwählen. In Zukunft wird die Auflösung automatisch an die verfügbare Bandbreite angepasst werden.

Neugestaltung für ein reaktionsfähigeres und skalierbares Frontend

2023 hat das Scrum Team des AV-Portals über mehrere Monate hinweg, die einzelnen Seiten des Videoportals, die in dem Frontend-Framework Wicket entwickelt wurden, in das Framework Vue.js migriert. In Wicket werden Änderungen in der Benutzeroberfläche durch vollständige Seiten-Neuladungen oder Teilladungen (Ajax) umgesetzt. Im Gegensatz dazu lädt der Browser bei Vue initial nur eine einzige HTML-Seite; alle weiteren Inhalte und Komponenten werden dynamisch aktualisiert, d.h., ohne dass die Seite vollständig neu geladen werden muss. Damit ermöglicht Vue eine dynamischere und reaktionsfähigere Benutzeroberfläche im Vergleich zu dem traditionelleren, serverseitigen Ansatz von Wicket. Außerdem bietet Vue deutliche Vorteile für die Skalierung von Frontend-Projekten durch seine komponentenbasierte Architektur, die die Organisation und Wartung großer Anwendungen vereinfacht.

Optimierung der Suchfunktion im AV-Portal

Im Sommer 2022 haben wir für alle Fächer des AV-Portals Listen mit Synonymen und englischen Übersetzungen erstellt. Diese basieren auf Daten aus dem Open-Data-Dump der Gemeinsamen Normdatei (GND). Neben den vom Nutzer eingegebenen Suchbegriffen werden auch diese Synonyme und Übersetzungen mit abgefragt, um die Anzahl relevanter Suchergebnisse zu erhöhen. Die Erzeugung dieser Listen wurde in 2023 weitestgehend automatisiert. Dadurch können wir die aktuellen Daten, die ungefähr alle drei Monate im GND-Dump veröffentlicht werden, effizient in unser System integrieren.

Transkripte der gesprochenen Sprache können auf der Videodetailseite nach Suchbegriffen gefiltert werden, so dass Nutzer direkt zu den Abschnitten im Video navigieren können, die sie am meisten interessieren. Dieses Feature ist deswegen so interessant, da zum einen die wesentlichen Inhalte des Videos über die Sprache vermittelt werden und zum anderen die Transkriptqualität nach der Integration von Whisper eine hohe Genauigkeit erreicht hat.

Videos mit mehr Views, d.h. einer höheren Anzahl von Wiedergaben, werden nun leicht höher gerankt. Das bedeutet, dass Videos mit ähnlichen Metadatentreffern (wie in Titel oder Keywords), aber unterschiedlich hohen Viewzahlen, jetzt unterschiedlich angeordnet werden. Dabei erscheinen Videos mit mehr Wiedergaben weiter oben in den Suchergebnissen. Dieses Boosting sorgt dafür, dass Nutzer unter ähnlichen Umständen schneller auf populärere Inhalte stoßen.

Screenshot aus dem TIB-AV-Portal, in dem die im Transkript hervorgehobenen Suchbergriffe gezeigt werden.
Filtern des Transkripts nach Suchbegriffen

Neue Highlighting-Funktion

Nach Abschluss der Vue-Migration konnte das Highlighting wieder aktiviert werden. Das bedeutet, dass alle gefundenen Suchbegriffe sowie ihre Synonyme und Übersetzungen in den Suchergebnissen fett hervorgehoben werden. Wenn die Nutzerin beispielsweise „Thermodynamik“ eingibt, werden neben „Thermodynamik“ auch „Wärmelehre“ und „thermodynamics“ fett hervorgehoben. Zusätzlich wurde das Highlighting erweitert, so dass nun auch Treffer in den Transkripten hervorgehoben werden. Diese Funktion erleichtert es Nutzern, schnell zu erkennen, ob ein Video ihren Suchanfragen oder Interessen entspricht.

Screenshot aus dem TIB-AV-Portal, in dem die Highlighting-Funktion gezeigt wird.
Highlighting von Metadaten und Transkripten auf der Suchergebnisseite

Modernisierung des Media Players

Der Videoplayer wurde grundlegend erneuert, um ihn mit dem modernen Frontend-Framework Vue kompatibel zu machen. Es wurden zunächst einmal alle Bedienelemente im Player von Grund auf neu implementiert, so dass wir nun vollständige Kontrolle über alle Steuerelemente haben. Darüber hinaus wurde eine Videovorschau in das Vorschaubild des Endbildschirms integriert, der nach der Wiedergabe erscheint. Dank Vue werden jetzt nur noch die aktualisierten Inhalte geladen, wenn Nutzer von einer Detailseite zur nächsten navigieren. Das macht das Durchstöbern der Videoinhalte schneller und flüssiger.

Ausblick auf zukünftige Entwicklungen

Es gibt einige spannende Entwicklungen und geplante Innovationen, die wir in den nächsten Monaten angehen wollen. Bei einigen dieser Projekte sind wir schon recht weit, bei anderen in der Experimentierphase.

Auf dem Weg zum eigenständigen Hosting

Wir haben 2023 wesentliche Vorbereitungen für ein Hosting an der TIB abgeschlossen. In naher Zukunft werden wir einen Hosting-Server von der IT-Abteilung zugewiesen bekommen, über den wir unsere Derivate in Eigenregie ausliefern können. Damit werden Derivaterzeugung und Video-Auslieferung vollständig durch die TIB erfolgen.

MPEG-DASH für adaptives Streaming

Wir arbeiten derzeit an einer Lösung für das Streaming von Multimedia-Inhalten: MPEG-DASH, kurz für „Dynamic Adaptive Streaming over HTTP“. Diese Technologie ermöglicht eine flexible und effiziente Übertragung von Videoinhalten über das Internet. Unser Ansatz beinhaltet die Erstellung von Einzeldateien für verschiedene Qualitätsstufen in MPEG-DASH. Das Besondere dabei ist, dass der Player automatisch zwischen diesen Qualitätsstufen wechselt – abhängig von der aktuellen Bandbreite. Bei einer höheren Bandbreite springt der Player auf eine Datei mit höherer Auflösung und reduziert entsprechend die Auflösung bei geringerer Bandbreite. Dies garantiert eine kontinuierliche Wiedergabe ohne Unterbrechungen oder lange Ladezeiten, selbst bei Schwankungen in der Netzwerkbandbreite.

Server-Side-Rendering

Ganz aktuell experimentieren wir mit Server-Side-Rendering. Diese Methode zeichnet sich dadurch aus, dass Webseiteninhalte bereits auf dem Server vorbereitet werden, bevor sie an den Client – etwa einen Webbrowser – übermittelt werden. Dies unterscheidet sich von der aktuell im AV-Portal verwendeten Methode des Client-Side-Renderings, bei dem die Inhalte direkt im Browser gerendert werden. Server-Side-Rendering bietet Vorteile wie schnellere Ladezeiten und eine bessere Erkennbarkeit durch Suchmaschinen-Crawler.

Bilderkennung mit Open Clip

Zusammen mit der Forschungsgruppe Visual Analytics haben wir mit einem Open-Clip-Modell experimentiert, das einen Bild- und Textencoder enthält. Clip stammt wie Whisper von OpenAI. Es wurde mit einer Vielzahl von Bildern und den dazugehörigen Beschreibungstexten trainiert. Seine Stärke liegt darin, zu erkennen, welche Texte zu welchen Bildern gehören. Diese Fähigkeit macht es möglich, Zero-Shot-Suchen in unserem Videobestand durchzuführen. Das bedeutet konkret, dass Nutzer in der Lage sind, Videos zu finden, indem sie einfach beschreibende Texte eingeben, ohne dass das System im Vorfeld speziell für diese spezifischen Texte oder Videos trainiert wurde. In einem ersten Schritt planen wir, CLIP zur Indexierung bestimmter Bildinhalte wie Brücken, Generatoren oder Maschinen zu nutzen, um darauf aufbauend Facettensuchen zu ermöglichen. Blickt man weiter in die Zukunft, könnte man sich sogar vorstellen, Zero-Shot-Suchen für Bildinhalte als speziellen Anwendungsfall anzubieten.

... ist Product Owner des TIB AV-Portals // ... is product owner of the TIB AV Portal