Ein neues System, das in der Lage ist, Lippen mit bemerkenswerter Genauigkeit zu lesen, selbst wenn die Sprecher Gesichtsmasken tragen, könnte dazu beitragen, eine neue Generation von Hörgeräten zu schaffen.
Ein internationales Team von Ingenieuren und Informatikern hat die Technologie entwickelt, die erstmals Hochfrequenzmessung mit künstlicher Intelligenz kombiniert, um Lippenbewegungen trotz Maske zu erkennen
Das System könnte, wenn es in herkömmliche Hörgerätetechnologie integriert wird, dazu beitragen, den „Cocktailparty-Effekt“, einen häufigen Mangel herkömmlicher Hörgeräte, zu bekämpfen.
Derzeit unterstützen Hörgeräte hörgeschädigte Menschen, indem sie alle Umgebungsgeräusche um sie herum verstärken, was in vielen Aspekten des täglichen Lebens hilfreich sein kann. In lauten Situationen, wie Cocktailpartys kann es das breite Verstärkungsspektrum von Hörgeräten jedoch für Benutzer schwierig machen, sich auf bestimmte Geräusche zu konzentrieren, wie z. B. Gespräche mit einer bestimmten Person. Eine mögliche Lösung für den Cocktailparty-Effekt sind „intelligente“ Hörgeräte, die herkömmliche Audioverstärkung mit einem zweiten Gerät kombinieren, um zusätzliche Daten für eine verbesserte Leistung zu sammeln.
Während andere Forscher erfolgreich Kameras zur Unterstützung des Lippenlesens eingesetzt haben, wirft das Sammeln von Videoaufnahmen von Personen ohne deren ausdrückliche Zustimmung Bedenken hinsichtlich der Privatsphäre des Einzelnen auf. Kameras sind auch nicht in der Lage, Lippen durch Masken zu lesen, eine alltägliche Herausforderung für Menschen, die aus kulturellen oder religiösen Gründen Gesichtsbedeckungen tragen, und ein umfassenderes Problem im Zeitalter von COVID-19.
In einem neuen Artikel, der in der Zeitschrift Nature Communications veröffentlicht wurde, skizziert das von der Universität Glasgow geführte Team, wie es sich vorgenommen hat, modernste Sensortechnologie zum Lesen von Lippen zu nutzen. Ihr System schützt die Privatsphäre, indem es nur Hochfrequenzdaten ohne begleitendes Videomaterial sammelt.
Um das System zu entwickeln, baten die Forscher männliche und weibliche Freiwillige, die fünf Vokale (A, E, I, O und U) zuerst ohne Maske und dann mit einer OP-Maske zu wiederholen. Während die Freiwilligen die Vokale wiederholten, wurden ihre Gesichter mit Hochfrequenzsignalen, sowohl von einem speziellen Radarsensor, als auch von einem WLAN-Sender gescannt. Ihre Gesichter wurden ebenfalls gescannt, während ihre Lippen still blieben. Dann wurden die 3.600 Datenproben, die während der Scans gesammelt wurden, verwendet, um maschinelles Lernen und Deep-Learning-Algorithmen zu „lehren“, wie man die charakteristischen Lippen- und Mundbewegungen erkennt, die mit jedem Vokal verbunden sind. Da die Hochfrequenzsignale die Masken der Freiwilligen problemlos passieren können, könnten die Algorithmen auch lernen, die Vokalbildung maskierter Benutzer zu lesen.
Das System erwies sich als in der Lage, die Lippen der Probanden die meiste Zeit korrekt zu lesen. WLAN-Daten wurden von den Lernalgorithmen bis zu 95 % der Zeit für unmaskierte Lippen und 80 % für maskierte richtig interpretiert. Inzwischen wurden die Radardaten ohne Maske zu 91 % und mit Maske zu 83 % richtig interpretiert.
Dr. Qammer Abbasi von der James Watt School of Engineering der Universität Glasgow ist der Hauptautor des Papiers. Er sagte: „Rund fünf Prozent der Weltbevölkerung – etwa 430 Millionen Menschen – haben irgendeine Art von Hörbehinderung.
„Hörgeräte haben vielen hörgeschädigten Menschen Vorteile gebracht. Eine neue Technologiegeneration, die ein breites Spektrum an Daten sammelt, um die Schallverstärkung zu erweitern und zu verbessern, könnte ein weiterer wichtiger Schritt zur Verbesserung der Lebensqualität von Menschen mit Hörbehinderung sein.
„Mit dieser Forschung haben wir gezeigt, dass Hochfrequenzsignale verwendet werden können, um Vokale auf den Lippen von Menschen genau zu lesen, selbst wenn ihr Mund bedeckt ist. Während die Ergebnisse des Lippenlesens mit Radarsignalen etwas genauer sind, zeigten die Wi-Fi-Signale ebenfalls eine beeindruckende Genauigkeit.
„Angesichts der Allgegenwärtigkeit und Erschwinglichkeit von Wi-Fi-Technologien sind die Ergebnisse sehr ermutigend, was darauf hindeutet, dass diese Technik sowohl als eigenständige Technologie als auch als Komponente in zukünftigen multimodalen Hörgeräten von Wert ist.“
Forscher der University of Glasgow, der Edinburgh Napier University im Vereinigten Königreich, zusammen mit Kollegen der University of Engineering and Technology Lahore, Pakistan, und der Southeast University, Nanjing in China, haben an der Veröffentlichung mitgewirkt. Das Papier des Teams mit dem Titel „Pushing the Limits of Remote RF Sensing by Reading Lips Under the Face Mask“ wurde in Nature Communications veröffentlicht.
Quelle: University of Glasgow