Wissenschaft

Neue Technologie wandelt Hirnaktivität in Sprache um

Eines Tages könnte die Technologie Menschen mit neurologischen Erkrankungen wieder eine Stimme geben.Dienstag, 16. Juli 2019

Von Michael Greshko, Maya Wei-Haas
Dieses Elektrodengitter von der Größe einer Briefmarke wird direkt auf dem Gehirn der Patienten platziert und kann schon kleine Fluktuationen in den elektrischen Hirnströmen registrieren, die durch das Sprechen entstehen. Zwei neuronale Netzwerke wandeln diese Aktivität dann in synthetische Sprache um.

Eines Tages könnten Menschen, die ihre Fähigkeit zu sprechen verloren haben, ihre Stimme wiederfinden. Eine Studie demonstrierte, dass die elektrische Aktivität im Gehirn entschlüsselt werden kann, um Sprache zu synthetisieren.

Die Studie, die im Fachmagazin „Nature“ erschien, befasst sich mit Daten von Patienten, deren Gehirne aufgrund des Risikos eines epileptischen Anfalls überwacht wurden. Zu diesem Zweck wurden Elektroden direkt auf der Oberfläche ihres Gehirns angebracht.Während die Patienten hunderte Sätze vorlasen – einige davon aus Märchen oder bekannten Kindergeschichten wie „Dornröschen“ und „Alice im Wunderland“ –, maßen die Elektroden leichte Fluktuationen in der elektrischen Aktivität des Gehirns. Anhand dieser Messungen lernte ein Computermodell, die Fluktuationen verschiedenen Sprachäußerungen zuzuordnen.

Diese Übersetzung erfolgte durch einen Zwischenschritt, bei der die Hirnaktivität mit einer komplexen Simulation des Vokaltrakts verknüpft wurde. Dieser Experimentaufbau basiert auf aktuellen Studien, die gezeigt haben, dass das Sprachzentrum des Gehirns die Bewegungen von Lippen, Zunge und Kiefer codiert.

„Das ist ein sehr, sehr eleganter Ansatz“, sagt Christian Herff, ein Forscher an der Universität Maastricht, der ähnliche Methoden für die Übersetzung von Hirnaktivität in Sprache erforscht. Er selbst veröffentlichte im „Journal of Neural Engineering“ dieses Jahr ebenfalls ein Modell für die Sprachsynthese, das allerdings einen etwas anderen Ansatz ohne simulierten Vokaltrakt verfolgt.

„Das Dechiffrieren von Sprache mit Hirn-Maschinen-Interfaces ist eine spannende neue Grenze der Wissenschaft“, sagt Cynthia Chesteck von der University of Michigan, die an keiner der beiden Studien beteiligt war. „Und es gibt einen kleinen Teil der Bevölkerung, der daraus einen großen Nutzen ziehen könnte.“

Die beiden Teams und andere Wissenschaftler auf der ganzen Welt hoffen, dass sie damit Menschen helfen können, die ihrer Fähigkeit zu sprechen beraubt wurden. Nicht selten geschieht das aufgrund neurodegenerativer Erkrankungen wie amyotropher Lateralsklerose (ALS) oder Schlaganfällen. Obwohl die Sprachzentren ihres Gehirns intakt sind, können die Patienten nicht mehr kommunizieren und sind von der Außenwelt abgeschottet.

Frühere Bemühungen konzentrierten sich eher darauf, durch die Messung der Hirnaktivität ein Buchstabieren einzelner Worte zu ermöglichen. Allerdings konnten Patienten damit oftmals maximal acht Worte pro Minute buchstabieren – kein Vergleich mit dem natürlichen Sprachfluss, mit dem man auf etwa 150 Worte pro Minute kommt.

Galerie: Reise in unser Gehirn

Galerie ansehen

„Das Gehirn ist die effizienteste Maschine überhaupt, die sich im Laufe von vielen Jahrtausenden entwickelt hat. Unsere Sprache ist eines der charakteristischen Verhaltensmerkmale, die uns zu Menschen machen und uns von allen anderen, nicht menschlichen Primaten unterscheiden“, erklärt der Co-Autor der „Nature“-Studie, Gopala Anumanchipalli von der University of California in San Francisco. „Wir betrachten sie als selbstverständlich und begreifen gar nicht, wie komplex dieses motorische Verhalten.“

Die Ergebnisse der Studien sind ermutigend, aber dennoch wird es Jahre dauern, bis die Technologie für die Patienten verfügbar und auf weitere Sprachen neben Englisch angepasst sein wird. Zudem wird sie jenen Menschen wohl nicht helfen können, deren Sprachzentren durch traumatische Hirnverletzungen oder Läsionen beschädigt wurden.

Die Forscher betonen zudem, dass diese Systeme nichts mit dem Lesen von Gedanken zu tun haben: Während der Studien werden nur jene Hirnregionen überwacht, die die Bewegungen des Vokaltrakts bei bewussten Sprechakten steuern.

„Wenn ich einfach nur denke: ‚Wow, was für ein anstrengender Tag‘, dann kontrolliere ich meine Gesichtsmuskulatur nicht“, sagt Herff.

Abhörmechanismus fürs Gehirn

Um Gedanken in Sätze umzuwandeln, nutzten Anumanchipalli und seine Kollegen Elektroden, die direkt an der Hirnoberfläche angebracht wurden. Obwohl es sich um einen invasiven Eingriff handelt, ist die direkte Beobachtung der Schlüssel zum Erfolg. „Da der Schädel sehr hart ist und wie ein Filter agiert, kann die ganze Aktivität, die darunter stattfindet, nicht erfasst werden,“ so Anumanchipalli.

Nachdem Sie die Daten gesammelt hatten, speisten die Forscher die aufgezeichneten Signale in zwei neutrale Netzwerke ein, welche die Prozesse im Gehirn simulierten, um in den komplexen Daten Muster zu finden. Das erste Netzwerk schloss darauf, welche Bewegungssignale das Gehirn den Lippen, der Zunge und dem Kiefer sendete. Das zweite übersetzt diese Bewegungen in künstliche Sprache. Das Modell wurde mithilfe von Sprachaufzeichnungen der Teilnehmer trainiert.

(Neuronales Interface: Wie wir Computer eines Tages mit unserem Gehirn steuern werden)

Als nächstes folgte der echte Test: Konnten andere Menschen die künstliche Sprache verstehen? Um das zu prüfen, rekrutierten die Forscher 1.755 englische Muttersprachler. Sie teilten die Zuhörer in Gruppen ein und wiesen ihnen 16 verschiedene Aufgaben zu, bei denen sie die Verständlichkeit von Worten und ganzen Sätzen bewerten sollten.

“Unsere Sprache ist eines der charakteristischen Verhaltensmerkmale, die uns zu Menschen machen und uns von allen anderen, nicht menschlichen Primaten unterscheiden ”

GOPALA ANUMANCHIPALLI, UNIVERSITY OF CALIFORNIA, SAN FRANCISCO

Die Teilnehmer hörten sich 101 Sätze in der synthetischen Sprache an und versuchten dann, das Gehörte niederzuschreiben. Dabei wählten sie aus einer Gruppe von 25 oder 50 Worten aus. Ihre Trefferquote belief sich dabei jeweils auf 43 bzw. 21 Prozent, je nachdem, aus wie vielen Wörtern sie wählen mussten.

Nicht jede Hörprobe war dabei gleichermaßen verständlich. Einige einfache Sätze wie „Is this seesaw safe?“ (dt.: „Ist diese Wippe sicher?“) wurden jedes Mal fehlerfrei transkribiert. Kompliziertere Sätze wie „At twilight on the twelfth day, we'll have Chablis“ (dt.: „Zur Dämmerung des zwölften Tages trinken wir Chablis“) wurden nicht einmal in 30 Prozent der Fälle fehlerfrei aufgeschrieben.

Einige Laute konnten zudem leichter decodiert werden als andere. Langgezogene Laute wie das sh in „ship“ waren recht deutlich, während Plosive wie das b in „bat“ vom System weicher und undeutlicher ausgegeben wurden.

3D-Ausflug ins Fliegenhirn
3D-Ausflug ins Fliegenhirn
Erstmals haben Forscher das gesamte Gehirn einer ausgewachsenen Fliege abgebildet.

Der Output ist zwar nicht perfekt, aber Chestek verweist darauf, dass der Datensatz zum Training des Systems noch recht klein ist. „Sie arbeiten gewissermaßen noch mit beiden Händen hinter dem Rücken, da sie auf Epilepsiepatienten und –operationen beschränkt sind“, sagt sie. Potenzielle künftige Systeme, die speziell auf die Übersetzung von Hirnaktivität in Sprache ausgelegt sind, könnten noch optimiert werden. „Ich bin da vorsichtig optimistisch.“

Datensammlung am offenen Gehirn

Die Autoren der “Nature“-Studie nutzten einen zweistufigen Prozess, um die synthetische Sprache deutlicher zu machen. Im Prinzip sei es aber auch machbar, die Hirnaktivität direkt in Sprache umzuwandeln, ohne sie zwischendurch den simulierten Vokaltrakt durchlaufen zu lassen, wie die Studie im „Journal of Neural Engineering“ demonstrierte.

Für ihre Arbeit nahmen die Forscher die Hirnaktivität und Sprache von sechs Menschen auf, denen operativ ein Gehirntumor entfernt wurde. Dafür nutzten sie, ähnlich wie die Verfasser der „Nature-„Studie, Elektroden, die direkt am Gehirn angebracht wurden. Dann trainierte das Team ein neutrales Netzwerk, die gesprochenen Worte der Teilnehmer mit der jeweiligen Hirnaktivität zu assoziieren. Das System gestalteten sie so, dass es bereits mit einem Audio-Input von 8 bis 13 Minuten arbeiten konnte. Mehr Daten konnten sie während der Operation nicht sammeln.

„Man muss sich mal vorstellen, wie stressig diese Situation ist: Der Chirurg öffnet den Schädel und platziert die Elektroden direkt [am Gehirn]. Damit finden sie heraus, wo der Tumor aufhört und die wichtige [Hirnmasse] anfängt“, sagt Herff. „Wenn sie damit fertig sind, müssen sie beurteilen, was sie herausschneiden – während dieser Zeit zeichnen wir unsere Daten auf.“

(Stoßen wir an die Grenzen der Wissenschaft?)

Im Anschluss speisten die Forscher die Daten aus dem neuronalen Netzwerk in ein Programm ein, welches sie in Sprache umwandelte. Im Gegensatz zu den Autoren der „Nature“-Studie, die auf ganze Sätze abzielten, konzentrierten sich Herff und seine Kollegen auf einzelne Worte.

Es sei schwer, die Ergebnisse der beiden Methoden direkt miteinander zu vergleichen, betonte Marc Slutzky von der Northwestern University. Er ist ein Co-Autor der Studie, die im „Journal of Neural Engineering“ erschien. „Von den paar Messgrößen her, die wir beide genutzt haben, scheinen sie ähnlich gut abzuschneiden – zumindest bei einigen der Testpersonen.“

Der letzte Schritt fehlt

Bis diese Technologie in die Hände – oder Gehirne – von Patienten gelangt, ist es aber noch ein weiter Weg. Die Modelle der beiden Studien basieren auf Daten von Menschen, die noch sprechen können, und wurden bisher nicht an Menschen getestet, die diese Fähigkeit verloren haben.

„Das ist eine grundlegende Frage, […] ob dieselben Algorithmen da funktionieren oder nicht“, sagt Edward Chang, ein Co-Autor der „Nature“-Studie und Professor für Neurochirurgie an der University of California in San Francisco. „Aber so langsam kommen wir dahin. Wir sind schon dicht dran.“

(Patient nach 15 Jahren aus Wachkoma aufgewacht)

Anumanchipalli und sein Team versuchten, diese Problematik bei einigen Tests zu adressieren, indem sie die Teilnehmer dazu aufforderten, die Sätze nicht zu sprechen, sondern nur die entsprechenden Mundbewegungen zu machen. Auf diese Weise konnten sie zwar ebenfalls Sprache synthetisieren, die Audioclips waren aber nicht so akkurat wie jene, die mit gesprochenem Input erstellt wurden. Darüber hinaus mussten die Testpersonen trotzdem ihre Gesichts- und Zungenmuskulatur kontrollieren, was für Menschen, die an neurologischen Problemen leiden, nicht selbstverständlich ist.

„Für die Patienten, für die die Nutzung [dieser Technologie] am interessantesten wäre, ist das nicht wirklich eine Hilfe“, urteilt Slutzky über die lautlosen Versuche. Er betrachtet die Studie als eine eindrucksvolle Demonstration der aktuellen Möglichkeiten. Insgesamt kämpft das Forschungsfeld aber noch damit, den Sprung hin zu Menschen zu schaffen, die nicht mehr sprechen können.

In den kommenden Jahrzehnten könnten Menschen mit Krankheiten wie Zerebralparese, die oft schon in jungen Jahren nicht mehr richtig sprechen können, von Kindesbeinen an mit entsprechenden Geräten aufwachsen.

„Wäre das nicht großartig, wenn man das einem Dreijährigen geben könnte, der dann mit seiner Umwelt interagieren kann, wenn er das vorher nicht konnte?“, fragt Melanie Fried-Oken. Die Sprachpathologin der Oregon Health & Science University ist eine Expertin für Sprachassistenztechnologien. „Das hat so viel Potenzial.“

Der Artikel wurde ursprünglich in englischer Sprache auf NationalGeographic.com veröffentlicht.

Wei­ter­le­sen