Chrooma+

Crossmediale Mehrwertdienste für die digitale Mediendistribution

TP 1: Sprachbasierte Inhaltsanalyse Radio / TV

Eine wichtige Quelle von Beschreibungsdaten für das Medienmanagement entspringt der Sprachanalyse. Hier können die Namen von Objekten einfach extrahiert werden, die bei einer rein bildlichen Analyse nicht oder nur sehr aufwändig erkannt werden können. Für die Sprachanalyse gibt es bereits Open Source‐Frameworks, welche die grundlegenden Algorithmen zur Verfügung stellen. Ein solches Framework ist CMU Sphinx, welches hier den Ausgangspunkt des Arbeitsbereichs darstellt.

Auch wenn die grundlegenden Algorithmen zur Sprachverarbeitung bereits existieren, sind für die Realisieung der eigentlichen Sprachverarbeitung noch verschiedene Schritte notwendig, welche die Zwischenstufen vom Audiosignal zur textlich ausgegebenen Sprache modellieren: Das akustische Modell, das phonetische Wörterbuch und das Sprachmodell. Diese drei Elemente sind sprach‐ und sprecherabhängig, müssen also nicht nur für jede Sprache, sondern auch für jede Sprachfärbung justiert werden. Die Sprechererkennung ist dabei sehr empfindlich und reagiert nicht nur auf stimmliche Unterschiede, wie männliche oder weibliche Stimmen, sondern auch auf Färbungen in der Aussprache, die für das menschliche Ohr kein Problem darstellen ‐ von Akzenten und Dialekten ganz zu schweigen.

Der Einsatz eines Spracherkennungs‐Frameworks muss daher auf einen eingeschränkten Typ von Mediendaten angepasst werden. Ziel des Arbeitsbereichs ist die Anpassung auf die im TV‐Studio der TU‐Chemnitz sowie im Radiostudio des Radio UniC produzierten Sendungen, um ein Referenzsystem zu erstellen. Die entwickelte Spracherkennnung wird anschließend an das von der Professur Medieninformatik aufgebaut Analyseframework AMOPA angekoppelt.