Audio-Analyse zur Unterstützung der Recherche nach Informationen im multimedialen Content

Über die Entwicklung eines Portals für audiovisuelle Medien an der TIB wurde hier schon öfter berichtet. Das Portal integriert neue Formen der Suche -ermöglicht durch eine automatisierte Videoanalyse mit Szenen-, Sprach-, Text- und Bilderkennung. Die gewonnenen Daten werden extrahiert und mittels sprachlicher Repräsentationen als inhaltsbeschreibende Metadaten bereitgestellt. Erst dadurch wird eine Full-Content-Suche nach den in den Multimedia-Inhalten verborgenen Informationen möglich.

Warum ist die Audioanalyse für die Suche nach audiovisuellen Materialien wichtig? Mit dieser Technik können komplette Transkriptionen der gesprochenen Beiträge in den Videos automatisch erzeugt und dazu genutzt werden, die sprachlichen Informationen suchbar zu machen. Für die Audioanalyse wird im Kompetenzzentrum für nicht-textuelle Materialien eine automatische Spracherkennungssoftware eingesetzt, mit der die natürliche Sprache verarbeitet wird. Den Prozessablauf der Audioanalyse zeigt die untere Abbildung.

Prozessablauf bei der Audioanalyse.  Quelle: http://vetail-x.com/transkription
Prozessablauf bei der Audioanalyse.
Quelle: http://vetail-x.com/transkription

Automatische Spracherkennungssysteme können derzeit nicht alle Wörter korrekt erkennen und daher noch keine perfekten Transkriptionen erstellen. Die Qualität der Spracherkennung wird von vielen Faktoren beeinflusst. Vielfalt und Veränderungen sind die gravierendsten Aspekte für eine gute Spracherkennung.

Die flüssige, natürliche Sprache in Form von spontaner Rede oder Gesprächen ist einer der Einflussfaktoren. Werden die Wörter einzeln, langsam und deutlich ausgesprochen, ist die Erkennung einfacher als bei flüssiger, kontinuierlicher Sprache. Gerade bei spontanem Reden kommen Unterbrechungen vor, wie z.B. gefüllte Pausen, Wortwiederholungen und der Neuanfang eines unterbrochenen Satzes, die zur Beeinträchtigung der Spracherkennung führen.

Auch die Umweltgeräusche, die während der Produktion eines Films durch die Aufnahmegeräte registriert werden, und sogar die Qualität der Aufnahmegeräte gehören zu den Faktoren, die die automatische Spracherkennung negativ beeinflussen. Sprecherspezifische Besonderheiten, wie Akzent, Dialekt oder eine Fremdsprache, von Nicht-Muttersprachlern gesprochen, sind weitere Einfluss-faktoren.

Einer der wichtigsten Einflussfaktoren ist das Vokabular. Je vielfältiger und komplexer die Themen, desto größer ist die Anzahl der fachspezifischen Wörter, die erkannt werden müssen, desto schwieriger ist die Erkennungsaufgabe und desto schlechter sind die Transkriptionsergebnisse. Die Spracherkennungssysteme müssen deshalb durch Training angepasst werden, damit sie auch bei Gebieten mit speziellem Vokabular gute Resultate erzielen können.

Was bedeutet es eigentlich, eine Spracherkennungssoftware zu trainieren? Wie viel Training ist notwendig, um den Anteil der korrekt erkannten Wörter zu steigern? Und welche Quellen, Instrumente und Verfahren eignen sich für das Training? Antworten zu diesen Fragen gebe ich in meiner Master-Arbeit „Möglichkeiten zur Unterstützung der automatischen Spracherkennung in wissenschaftlichen Videos mit Hilfe von Fachterminologie“.