Den Stimmbändern auf der Spur

05.03.2021

Mithilfe künstlicher Intelligenz können Erlanger HNO-Experten die Stimmentstehung vollautomatisch sichtbar machen – Forscher als KI-Newcomer nominiert

Kratzig, rauchig, piepsig oder schrill: Die Stimme ist für einen Menschen charakteristisch. Bemerken wir jedoch Veränderungen wie länger anhaltende Heiserkeit, ist die Abklärung bei einem Experten ratsam. Im Rahmen einer endoskopischen Untersuchung des Halses wird die Ursache der Stimmstörung festgestellt und der Patient entsprechend behandelt. Mithilfe von künstlicher Intelligenz (KI) versuchen Dr. Andreas Kist und seine Kollegen in der Phoniatrie und Pädaudiologie an der Hals-Nasen-Ohren-Klinik – Kopf- und Halschirurgie (Direktor: Prof. Dr. Dr. h. c. Heinrich Iro) des Universitätsklinikums Erlangen die Hochgeschwindigkeitsendoskopie in die Klinik zu überführen, um die Stimme vollautomatisch sichtbar und mit Zahlen greifbar zu machen. Ziel des Projekts ist es, den Therapieverlauf und -erfolg besser zu überwachen. Für seine innovativen Forschungsarbeiten wurde Dr. Kist von der Gesellschaft für Informatik e. V. als KI-Newcomer 2021 nominiert.

Die Abstimmung läuft noch bis 7. März 2021.

Unsere Stimme entsteht durch das Schwingen der Stimmbänder im Kehlkopf. Patienten, die Probleme mit ihrer Stimme haben, werden in der Phoniatrie und Pädaudiologie an der Erlanger HNO-Klinik endoskopisch untersucht: Dazu wird das schlauchförmige Gerät über den Mund oder die Nase eingeführt, um die Schwingung der Stimmbänder genauer zu betrachten. Die bisherigen Aufnahmemethoden, z. B. die Stroboskopie, erlauben zwar eine gute Erkennung von Veränderungen im Kehlkopf, etwa Polypen oder Entzündungen, zeigen aber nur eingeschränkt, wie die Stimmbänder tatsächlich schwingen. Denn: Mit 100 bis 300 Schwingungen pro Sekunde bewegen sie sich einfach zu schnell, um die Schwingungen mit bisherigen Methoden vollständig erfassen zu können. Die Hochgeschwindigkeitsendoskopie dagegen kann die schnelle Bewegung der Stimmbänder exakt aufnehmen. Allerdings ist die Bildanalyse bislang mit hohem personellen und zeitlichen Einsatz verbunden. „Wir nehmen mit der Hochgeschwindigkeitsendoskopie etwa 4.000 Bilder pro Sekunde auf – eine große Datenmenge, die effizient bearbeitet und analysiert werden muss“, so Dr. Kist. „Der ganze Prozess basiert auf der Erkennung der Stimmritze – und genau dort setzen wir an.“

Künstliche neuronale Netze

Um die Stimmritze auf 1.000 Bildern zu erkennen, dauert es mit den bisherigen Methoden ungefähr 30 Minuten. „Das ist viel zu lang für den klinischen Gebrauch“, sagt Andreas Kist. „Aber dank künstlicher Intelligenz waren wir in der Lage, das zu ändern, und können diese neue Bildgebungstechnik für das in der Klinik tätige ärztliche Personal nun interessant gestalten.“ Dr. Kist und seine Kollegen verwenden dazu künstliche neuronale Netze (KNNs), die sich am Aufbau unseres Gehirns orientieren. Die KNNs sind in der Lage, Bewegungsmuster wie die sich öffnende und schließende Stimmritze in den Bilddaten zu erkennen. „Diese neuronalen Netze analysieren das endoskopische Material und entscheiden für jeden Pixel, ob er ein Teil der Stimmritze ist oder nicht. Aus der sich ändernden Fläche der Stimmritze können wir Rückschlüsse auf die Schwingung der Stimmbänder ziehen und so die Funktion des Kehlkopfes einschätzen“, so der Experte weiter.

79-mal schneller dank KI

Durch diverse Optimierungen der KNNs sind Dr. Kist und seine Kollegen in der Lage, die gleiche Anzahl von Bildern anstatt in einer halben Stunde in unter 30 Sekunden zu analysieren. „Es geht also ungefähr 79-mal schneller als bisher – und vollautomatisch. Das ist ein sehr wichtiger Schritt, um die Hochgeschwindigkeitsendoskopie in die Klinik zu überführen“, betont Dr. Kist. Denn mit der Bewegung der Stimmritze kann beispielsweise objektiv beurteilt werden, ob die Stimmbänder auf beiden Seiten gleich stark schwingen, eine Seite mehr arbeitet als die andere oder wie schnell sich die Stimmlippen öffnen. „Aber da sind wir noch am Anfang mit unserer Forschung“, meint Dr. Kist. „Um hier weiter Licht ins Dunkle zu bringen, werden wir von der Deutschen Forschungsgemeinschaft unterstützt.“

Vorreiter bei KI

Damit die KNNs die Stimmritzenerkennung erlernen können, wird ein großer Bilddatensatz benötigt. Einen solchen haben Dr. Andreas Kist und seine Kollegen mithilfe national und international hochrangigen Kooperationen zusammengestellt und allen Phoniatrie-Einrichtungen weltweit kostenfrei zugänglich gemacht. Die Wissenschaftler der Erlanger Phoniatrie gehören bei Deep Learning und KI in der Stimmphysiologie und -pathologie international zu den führenden und richtungsweisenden Experten.