Audio-Analyse zur Unterstützung der Recherche nach Informationen im multimedialen Content

Veröffentlicht am 7. November 20137. Februar 2024 von Letitia-Venetia Mölck

Über die Entwicklung eines Portals für audiovisuelle Medien an der TIB wurde hier schon öfter berichtet. Das Portal integriert neue Formen der Suche -ermöglicht durch eine automatisierte Videoanalyse mit Szenen-, Sprach-, Text- und Bilderkennung. Die gewonnenen Daten werden extrahiert und mittels sprachlicher Repräsentationen als inhaltsbeschreibende Metadaten bereitgestellt. Erst dadurch wird eine Full-Content-Suche nach den in den Multimedia-Inhalten verborgenen Informationen möglich.

Warum ist die Audioanalyse für die Suche nach audiovisuellen Materialien wichtig? Mit dieser Technik können komplette Transkriptionen der gesprochenen Beiträge in den Videos automatisch erzeugt und dazu genutzt werden, die sprachlichen Informationen suchbar zu machen. Für die Audioanalyse wird im Kompetenzzentrum für nicht-textuelle Materialien eine automatische Spracherkennungssoftware eingesetzt, mit der die natürliche Sprache verarbeitet wird. Den Prozessablauf der Audioanalyse zeigt die untere Abbildung.

Prozessablauf bei der Audioanalyse. Quelle: http://vetail-x.com/transkription — Prozessablauf bei der Audioanalyse.
Quelle: http://vetail-x.com/transkription

Automatische Spracherkennungssysteme können derzeit nicht alle Wörter korrekt erkennen und daher noch keine perfekten Transkriptionen erstellen. Die Qualität der Spracherkennung wird von vielen Faktoren beeinflusst. Vielfalt und Veränderungen sind die gravierendsten Aspekte für eine gute Spracherkennung.

Die flüssige, natürliche Sprache in Form von spontaner Rede oder Gesprächen ist einer der Einflussfaktoren. Werden die Wörter einzeln, langsam und deutlich ausgesprochen, ist die Erkennung einfacher als bei flüssiger, kontinuierlicher Sprache. Gerade bei spontanem Reden kommen Unterbrechungen vor, wie z.B. gefüllte Pausen, Wortwiederholungen und der Neuanfang eines unterbrochenen Satzes, die zur Beeinträchtigung der Spracherkennung führen.

Auch die Umweltgeräusche, die während der Produktion eines Films durch die Aufnahmegeräte registriert werden, und sogar die Qualität der Aufnahmegeräte gehören zu den Faktoren, die die automatische Spracherkennung negativ beeinflussen. Sprecherspezifische Besonderheiten, wie Akzent, Dialekt oder eine Fremdsprache, von Nicht-Muttersprachlern gesprochen, sind weitere Einfluss-faktoren.

Einer der wichtigsten Einflussfaktoren ist das Vokabular. Je vielfältiger und komplexer die Themen, desto größer ist die Anzahl der fachspezifischen Wörter, die erkannt werden müssen, desto schwieriger ist die Erkennungsaufgabe und desto schlechter sind die Transkriptionsergebnisse. Die Spracherkennungssysteme müssen deshalb durch Training angepasst werden, damit sie auch bei Gebieten mit speziellem Vokabular gute Resultate erzielen können.

Was bedeutet es eigentlich, eine Spracherkennungssoftware zu trainieren? Wie viel Training ist notwendig, um den Anteil der korrekt erkannten Wörter zu steigern? Und welche Quellen, Instrumente und Verfahren eignen sich für das Training? Antworten zu diesen Fragen gebe ich in meiner Master-Arbeit „Möglichkeiten zur Unterstützung der automatischen Spracherkennung in wissenschaftlichen Videos mit Hilfe von Fachterminologie“.

Letitia-Venetia Mölck

3 Antworten auf “Audio-Analyse zur Unterstützung der Recherche nach Informationen im multimedialen Content”

Susanne Kannenberg sagt:

7. November 2013 um 17:50 Uhr

Liebe Letizia,
vielen Dak für den informativen Blogbeitrag. So eine Technologie wäre ein Traum, vor allem für eine barrierefreie Bibliothek: Sehgeschädigte könnten ihre Katalogrecherchen über Audioerkennung durchführen ….

Antworten
Letitia Mölck sagt:

8. November 2013 um 10:51 Uhr

Liebe Susanne,

der Traum ist Wirklichkeit geworden. Diese Technologie ist in FBK vorhanden und im Blinden- und Sehbehinderten-Arbeitsraum im Einsatz.

Antworten
Susanne Kannenberg sagt:

11. November 2013 um 10:45 Uhr

Toll! Kann man das auch rein virtuell verfügbar machen, so dass Nutzer es z.B. von zuhause aus anwenden können?

Antworten

Letitia-Venetia Mölck

3 Antworten auf “Audio-Analyse zur Unterstützung der Recherche nach Informationen im multimedialen Content”

Schreibe einen Kommentar Antworten abbrechen