Die Lösungen des Fraunhofer IDMT in Oldenburg zur Verbesserung der Sprachverständlichkeit basieren u.a. auf Algorithmen zur Quellentrennung, die Dialoge auch bei komplexer Hintergrundakustik isolieren und hervorheben.  Anika Bödecker  Fraunhofer IDMTDas Fraunhofer IDMT stellt Lösungen für die Analyse, Bewertung und Verbesserung von Sprachverständlichkeit vor.
Neue Audioanalyseverfahren des Fraunhofer-Instituts für Digitale Medientechnologie IDMT unterstützen Tonschaffende dabei, die Verständlichkeit von Sprache objektiv einzuschätzen und leisten damit einen wichtigen Beitrag zum optimalen Audio-Mix.
Bei Medienproduktionen oder im Broadcast-Bereich wird oftmals subjektiv entschieden, ob Sprachanteile für Zuhörende ausreichend gut verständlich sind. Jeder Mensch hat jedoch unterschiedliche Hörpräferenzen. Außerdem kann es sinnvoll sein, je nach Zielgruppe auf den demographischen Wandel und bestehende Höreinschränkungen Rücksicht zu nehmen.
Bild: Die Lösungen des Fraunhofer IDMT in Oldenburg zur Verbesserung der Sprachverständlichkeit basieren u.a. auf Algorithmen zur Quellentrennung, die Dialoge auch bei komplexer Hintergrundakustik isolieren und hervorheben. Anika Bödecker, Fraunhofer IDMT

Die auf maschinellem Lernen basierende Verfahren des Fraunhofer IDMT bieten eine zuverlässige Entscheidungsgrundlage für Tonschaffende. Die Softwarelösungen reichen von der reinen Bewertung bis hin zur automatischen Anpassung der Verständlichkeit in Echtzeit. Die Expertinnen und Experten des Oldenburger Institutsteils sehen zusätzlich zur Anwendung in Film-, Rundfunk- und Fernsehproduktionen großes Potential in der personalisierbaren Anpassung der Verständlichkeit in Streaming Diensten oder auch live am Set bzw. in der Beschallungstechnik.

Erst die Analyse…
Die Sprachverständlichkeitslösungen des Fraunhofer IDMT basieren stets auf der Analyse des Audiosignals. Mit Verfahren des maschinellen Lernens werden automatisch Signale mit Sprachanteilen erkannt, deren Qualität bzw. Verständlichkeit anschließend automatisch beurteilt wird. In der Praxis dient häufig das Lautstärkeverhältnis zwischen Sprache und Hintergrund (SNR = Signal-to-Noise Ratio) als Bewertungsmaß. Das Team um Dr. Jan Rennies-Hochmuth geht am Institutsteil HSA darüber hinaus. Der Gruppenleiter erklärt: »Mit Algorithmen auf KI-Basis ermitteln wir die tatsächliche Höranstrengung des bereits gemischten Signals (»Listening Effort«), die vom Zuhörenden aufgebracht werden muss. Damit ermöglichen wir eine deutlich zuverlässigere Einschätzung des Mixes und erhöhen die Wahrscheinlichkeit, dass bei einer optimalen Bewertung die Zuhörenden das gesprochene Wort gut verstehen. Denn zwei Signale mit demselben SNR können sich je nach Art der Hintergrundgeräusche oder der Deutlichkeit der Aussprache sehr in ihrer Höranstrengung und Verständlichkeit unterscheiden.«

… dann die Verbesserung
Bei einer schlechten Sprachverständlichkeit müssen Audioprofis entweder die Tonmischung überarbeiten oder die Aufnahmeverhältnisse anpassen. Hier setzt eine weitere Lösung des Fraunhofer IDMT an. Sie ermittelt notwendige Anpassungen für eine bessere Sprachverständlichkeit, gibt entsprechende Hinweise und führt die Verbesserungen bei Bedarf sogar automatisch durch. Dabei kommen eigens entwickelte Algorithmen zur Quellentrennung zum Einsatz. Dialoge werden auch bei komplexer Hintergrundakustik, wie Musik oder Soundeffekten, isoliert und hervorgehoben. Da dies bereits mit minimaler Verzögerung bei der Signalverarbeitung umsetzbar ist, können die Lösungen neben der Vorverarbeitung auch im Sendebetrieb oder in Endgeräten beim Hörenden eingesetzt werden. Dort kann eine weitere Technologie des Oldenburger Institutsteils den Hörenden einen Vorteil bieten. Die adaptive Signalverarbeitung bezieht laute Umgebungsgeräusche vor Ort ein und passt das Audiosignal entsprechend für eine optimale Verständlichkeit an, ohne dass dafür die Lautstärke erhöht werden muss.

Welcher Sprecher ist wichtig?
In Audiomischungen sind verschiedene Sprecher zur gleichen Zeit keine Seltenheit – doch manchmal beeinträchtigt dies die Sprachverständlichkeit. Auch für diesen Fall hat das Fraunhofer IDMT eine Lösung im Gepäck. Die zuverlässige Erkennung und Trennung verschiedener Sprecher wird durch sogenanntes Voice Filtering ermöglicht, das auf Basis weniger Sekunden den akustischen Fingerabdruck eines Sprechers erzeugt, um diesen später aus einem Mix aus mehreren Sprechern zu extrahieren.
Quelle: Fraunhofer-Institut für Digitale Medientechnologie IDMT

CIV NRW e.V

CIV NRW Logo

Cochlea Implantat Verband Nordrhein-Westfalen e.V. (CIV NRW)
(Regionalverband für NRW der DCIG e.V.)
Geschäftsstelle: Alleestr. 73, 58097 Hagen
Telefon: 02331 1884601
Beratungstermine nach Vereinbarung unter: info@civ-nrw.de -

CIV NRW News online
ist die  Onlineversion der Zeitschrift des
Cochlea Implantat Verbandes NRW e.V.,
CIV NRW News - Chefredaktion:
Marion und Peter Hölterhoff
Redaktion:
Karina Manassah, Veronika Albers und freie Autoren
Korrektorat: Christel Kreinbihl
Medizinische Beratung:
Prof. Dr. med. Jonas Park, Dr. Elmar Spyra, Peter Dieler
Anzeigen/ Akquise:
Michaela Hoffmann michaela-hoffmann@civ-nrw.de
CIV NRW News online- ViSdP:

Peter G.A. Hölterhoff, Rosenstr 4 58642 Iserlohn
© Cochlea Implantat Verband NRW e.V.
Alle Rechte vorbehalten - Alle Angaben ohne Gewähr

Mit Aufruf der folgenden Links werden Daten an die Netzwerke übertragen und dort verarbeitet.
Facebook: https://www.facebook.com/CIV.NRWNews - Twitter:    https://twitter.com/CIV_NRW - Instagram:  https://www.instagram.com/civnrw/
WEB-Layout: Peter G.A. Hölterhoff
Sie können uns unterstützen über Gooding oder eine
direkte Spende hier online
Bankverbindung: Volksbank Hohenlimburg
IBAN:DE30 4506 1524 4001 2313 00,
BIC: GENODEM1HLH

Veranstaltungskalender

Mo Di Mi Do Fr Sa So
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Wir benutzen Cookies
Bitte beachten Sie, dass einzelne Funktionen unserer Website möglicherweise nicht funktionieren, wenn Sie die Verwendung von Cookies deaktiviert haben.