Das Fraunhofer IDMT stellt Lösungen für die Analyse, Bewertung und Verbesserung von Sprachverständlichkeit vor.
Neue Audioanalyseverfahren des Fraunhofer-Instituts für Digitale Medientechnologie IDMT unterstützen Tonschaffende dabei, die Verständlichkeit von Sprache objektiv einzuschätzen und leisten damit einen wichtigen Beitrag zum optimalen Audio-Mix.
Bei Medienproduktionen oder im Broadcast-Bereich wird oftmals subjektiv entschieden, ob Sprachanteile für Zuhörende ausreichend gut verständlich sind. Jeder Mensch hat jedoch unterschiedliche Hörpräferenzen. Außerdem kann es sinnvoll sein, je nach Zielgruppe auf den demographischen Wandel und bestehende Höreinschränkungen Rücksicht zu nehmen.
Bild: Die Lösungen des Fraunhofer IDMT in Oldenburg zur Verbesserung der Sprachverständlichkeit basieren u.a. auf Algorithmen zur Quellentrennung, die Dialoge auch bei komplexer Hintergrundakustik isolieren und hervorheben. Anika Bödecker, Fraunhofer IDMT
Die auf maschinellem Lernen basierende Verfahren des Fraunhofer IDMT bieten eine zuverlässige Entscheidungsgrundlage für Tonschaffende. Die Softwarelösungen reichen von der reinen Bewertung bis hin zur automatischen Anpassung der Verständlichkeit in Echtzeit. Die Expertinnen und Experten des Oldenburger Institutsteils sehen zusätzlich zur Anwendung in Film-, Rundfunk- und Fernsehproduktionen großes Potential in der personalisierbaren Anpassung der Verständlichkeit in Streaming Diensten oder auch live am Set bzw. in der Beschallungstechnik.
Erst die Analyse…
Die Sprachverständlichkeitslösungen des Fraunhofer IDMT basieren stets auf der Analyse des Audiosignals. Mit Verfahren des maschinellen Lernens werden automatisch Signale mit Sprachanteilen erkannt, deren Qualität bzw. Verständlichkeit anschließend automatisch beurteilt wird. In der Praxis dient häufig das Lautstärkeverhältnis zwischen Sprache und Hintergrund (SNR = Signal-to-Noise Ratio) als Bewertungsmaß. Das Team um Dr. Jan Rennies-Hochmuth geht am Institutsteil HSA darüber hinaus. Der Gruppenleiter erklärt: »Mit Algorithmen auf KI-Basis ermitteln wir die tatsächliche Höranstrengung des bereits gemischten Signals (»Listening Effort«), die vom Zuhörenden aufgebracht werden muss. Damit ermöglichen wir eine deutlich zuverlässigere Einschätzung des Mixes und erhöhen die Wahrscheinlichkeit, dass bei einer optimalen Bewertung die Zuhörenden das gesprochene Wort gut verstehen. Denn zwei Signale mit demselben SNR können sich je nach Art der Hintergrundgeräusche oder der Deutlichkeit der Aussprache sehr in ihrer Höranstrengung und Verständlichkeit unterscheiden.«
… dann die Verbesserung
Bei einer schlechten Sprachverständlichkeit müssen Audioprofis entweder die Tonmischung überarbeiten oder die Aufnahmeverhältnisse anpassen. Hier setzt eine weitere Lösung des Fraunhofer IDMT an. Sie ermittelt notwendige Anpassungen für eine bessere Sprachverständlichkeit, gibt entsprechende Hinweise und führt die Verbesserungen bei Bedarf sogar automatisch durch. Dabei kommen eigens entwickelte Algorithmen zur Quellentrennung zum Einsatz. Dialoge werden auch bei komplexer Hintergrundakustik, wie Musik oder Soundeffekten, isoliert und hervorgehoben. Da dies bereits mit minimaler Verzögerung bei der Signalverarbeitung umsetzbar ist, können die Lösungen neben der Vorverarbeitung auch im Sendebetrieb oder in Endgeräten beim Hörenden eingesetzt werden. Dort kann eine weitere Technologie des Oldenburger Institutsteils den Hörenden einen Vorteil bieten. Die adaptive Signalverarbeitung bezieht laute Umgebungsgeräusche vor Ort ein und passt das Audiosignal entsprechend für eine optimale Verständlichkeit an, ohne dass dafür die Lautstärke erhöht werden muss.
Welcher Sprecher ist wichtig?
In Audiomischungen sind verschiedene Sprecher zur gleichen Zeit keine Seltenheit – doch manchmal beeinträchtigt dies die Sprachverständlichkeit. Auch für diesen Fall hat das Fraunhofer IDMT eine Lösung im Gepäck. Die zuverlässige Erkennung und Trennung verschiedener Sprecher wird durch sogenanntes Voice Filtering ermöglicht, das auf Basis weniger Sekunden den akustischen Fingerabdruck eines Sprechers erzeugt, um diesen später aus einem Mix aus mehreren Sprechern zu extrahieren.
Quelle: Fraunhofer-Institut für Digitale Medientechnologie IDMT