1. Magazin
  2. Gesundheit
  3. Was die Stimme über unseren Gesundheitszustand verrät

Was die Stimme über unseren Gesundheitszustand verrät

Die Stimme eines Menschen steckt voller Informationen. Während kommerzielle Anbieter wie Amazon das große Geschäft wittern, nutzt ein Augsburger Forscher das Potenzial zum Erkennen von Krankheiten. Auch bei der künstlichen Intelligenz wird großes Potential gesehen. So soll es beispielsweise bald möglich sein, Emotionen anhand der Stimme festzustellen. Doch während der Stimmenmarkt wächst und wächst zeigen sich Datenschützer entsetzt. Denn häufig hängt die Stimmenanalyse mit einem massiven Eingriff in die Privatsphäre zusammen.

Im Leben des überaus schüchternen Theodore Twombly bedeutet eine Stimme die ganze Welt. Mit Samantha bespricht der frisch getrennte Mann, der mit dem Schreiben besonders einfühlsamer Briefe im Auftrag Dritter sein Geld verdient, alles, was ihn beschäftigt: Seine Einsamkeit, die bevorstehende Scheidung, seine in Turbulenzen geratene Gefühlswelt.

Über sein Smartphone und einen Knopf im Ohr ist Samantha immer bei ihm. Sie gibt ihm Ratschläge, tröstet und heitert ihn auf. Samantha, da ist Theodore sicher, muss die Frau seines Lebens sein. Auch wenn sie manche Seltsamkeit offenbart, gesehen nämlich hat er sie noch nie. Denn Samantha ist die sehr menschliche Computerstimme einer Künstlichen Intelligenz. Und doch sorgen das Timbre und ihre Reaktionen dafür, dass er nicht von ihr lassen kann.

Mittels Tonlage und Aussprache Krankheiten erkennen

Die Geschichte aus der US-Romanze „Her“ ist zwar eine Science-Fiction-Verfilmung und doch hat sie nach dem Kinostart im Jahr 2013 viel Aufmerksamkeit erhalten, weil sie viel aussagt über das heutige Leben der Menschen in einer technisierten Welt. Computerstimmen wie Alexa und Siri gehören längst zum Alltag. Sie erfüllen Wünsche, recherchieren im Netz, kaufen ein oder erzählen einen Flachwitz, wenn man danach fragt.

Mit Stimmen wollen kommerzielle App-Anbieter künftig die Launen ihrer Nutzer deuten und je nach Art entweder verstärken oder abfedern. Auch im medizinischen Bereich gewinnt die Stimme an Bedeutung. Anhand etwa von Tonlagen und Aussprache lassen sich nicht nur Alter und Größe ablesen, sondern auch Krankheiten erkennen.

Künstliche Intelligenz für die Stimmenanalyse

„Das Potenzial ist groß“, sagt Björn Schuller, Professor für Embedded Intelligence for Health Care and Wellbeing an der Uni Augsburg sowie am Imperial College London. Der Forscher gehört zu den weltweit führenden Experten auf dem Gebiet der Stimmenanalyse. Das Thema beschäftigte ihn schon als Doktorand.

Damals, im Jahr 2005, promovierte der studierte Elektroningenieur über das Erkennen von Emotionen über die Stimme. Inzwischen hat er das Fachgebiet etwas verändert. Die Kernfrage seiner Forschung: Wie kann es künstliche Intelligenz schaffen, menschliche Stimmen so zu interpretieren, dass sie in die Lage kommt, bestimmte Erkrankungen frühzeitig zu detektieren?

Mit geringer Abweichung die Größe bestimmen

Schon seit mehr als zehn Jahren tüfteln Schuller und sein Team an der Entwicklung künstlicher Neuronaler Netze als eine Art simple Nachbildung des menschlichen Gehirns. Millionen Verschaltungen von künstlichen Neuronen sorgen dafür, dass die KI ähnliche Bewertungen vornehmen kann wie ein Mensch. Bemerkenswerte Erfolge gibt es bereits: Schullers Ansatz kann etwa die Herzfrequenz und den Cortisolspiegel messen, das Alter und mit einer Abweichung von etwa fünf bis sieben Zentimetern die Größe bestimmen.

Seine KI kann Depression erkennen, bipolare Störungen, Autismus, Parkinson, Alzheimer und seit einiger Zeit sogar, ob ein Mensch an Corona erkrankt ist. Zwar noch nicht immer und ohne Fehler, aber doch mit einer Trefferquote von bis zu 85 Prozent. „Gerade bei der Frage, ob ein Mensch an einer Depression leidet, können wir inzwischen eine ähnlich sichere Aussage treffen wie Therapeuten im Mittel.“

Covid-Erkrankte sprechen oft schneller

Bei der Analyse macht sich Schuller Auswirkungen der Krankheiten auf die Stimme zunutze, die für das menschliche Gehör oft nicht wahrnehmbar sind. Personen, die an Covid erkrankt sind, haben etwa eine veränderte Genauigkeit der Grundfrequenz, legen längere Pausen ein und sprechen dann wiederum schneller, um die verlorene Zeit wieder aufzuholen. Und weil sie die Befürchtung haben, die Aufmerksamkeit ihres Gegenübers andernfalls zu verlieren.

Auch Parkinson hat stimmliche Eigenschaften: Die Grundfrequenz ist nicht mehr so variabel, die Lautstärke sinkt. Die Betroffenen reden also eher monoton und leise. Nicht ganz so offensichtlich ist das Sprachbild von Menschen mit Depression. Zwar würden sie oft leise und abgeschlagen klingen, sagt Schuller. Manche aber versuchten, besonders fröhlich zu wirken, um ihre Erkrankung zu vertuschen.

Ein einziger Satz reicht aus

Schullers KI analysiert auch Charaktermerkmale nach den sogenannten OCEAN-Dimensionen. Das Modell aus der Psychologie beschreibt die fünf Kernpunkte der menschlichen Persönlichkeit: Offenheit, Gewissenhaftigkeit, Extraversion (Geselligkeit), Verträglichkeit im Sinne von Rücksichtnahme und Empathie sowie Neurotizismus, also die Verletzlichkeit.

Am besten erkennt die KI natürlich die Stimme ihres Hauptnutzers, aber es wäre auch möglich, einen völlig Fremden sprechen zu lassen. Ein Satz, ein langgezogener Vokal oder kurzes Abhusten würden reichen, um zu zeigen, ob die Person Covid positiv ist oder nicht. „Die Ergebnisse sind nicht so zuverlässig wie ein PCR-Test, aber doch schon sehr gut.“

„Deep Learning“ brachte den Durchbruch

Die von Schuller geschaffenen Neuronalen Netze lernen selbstständig, worauf im Sprachsignal zu achten ist. Anfangs, so hatte er es selbst noch gelernt, war die geläufige Forschungsmeinung, dass drei Schichten von Neuronalen Netzen ausreichen sollten, um die gewünschte Funktion zu erfüllen. Das sei ein Irrtum gewesen. Schuller legte gleich mehrere Schichten übereinander und verschaltete tausende Neuronen miteinander, um erfolgreich direkt aus dem Audiosignal zu lernen.

Das sogenannte „Deep Learning“ (Tiefes Lernen) bedeutete den Durchbruch. Die KI wird zunächst mit gespendeten Stimmdaten und nicht mehr wie früher mit einem Standardsatz von mehr als 6000 Stimmmerkmalen gefüttert. Die KI beginnt nun, selbstständig zu lernen und weiß, worauf sie bei einer Stimme zu achten hat. „Die KI kann deutlich mehr Informationen mit einer viel höheren Komplexität ausnutzen und verarbeiten“, sagt Schuller. „Entsprechend zuverlässiger sind auch die Ergebnisse.“

Smartes Armband gegen das Stottern

Mit seiner KI will Schuller helfen, Krankheiten frühzeitig zu erkennen. Er selbst allerdings betreut keine Patienten, sondern arbeitet mit medizinischen Hochschulen und Unikliniken zusammen, liefert die Technik und veranstaltet internationale Wettbewerbe, die sich jeweils einem Themenschwerpunkt widmen, beispielsweise aktuell dem Stottern.

In der praktischen Anwendung wäre etwa eine Art smartes Armband denkbar, das ähnlich einem Fitnesstracker einem Menschen mit Depression die Rückmeldung gibt, wie sich der Stimmungsverlauf in den vergangenen Stunden, Tagen und Wochen entwickelt hat und was man noch tun könnte, um der Krankheit entgegenzuwirken.

Auch für Psychologen oder Psychiater hätte ein solches System einen Nutzen, ist Schuller überzeugt. Die KI könnte anhand der Daten Auskunft über Erfolge im Therapieverlauf geben. Aber auch jungen Eltern könnte die KI eine Hilfe sein, wenn es darum geht, eine Entwicklungsstörung frühzeitig zu erkennen.

Kommerzielle Anbieter drängen auf den Stimmenmarkt

Seine Forschung hat den Informatiker aus Augsburg auch für die drei großen Player auf dem Markt der Assistenzstimmen interessant gemacht. Die großen Konzerne haben das Potenzial der Stimmenanalyse längst erkannt und tüfteln eifrig an kommerziellen Einsatzmöglichkeiten. Einen ersten Gehversuch hatte der Weltmarktführer Amazon vor etwa zwei Jahren unternommen.

„Halo“ nannte der Warengigant sein interaktives Armband, das anders als die Konkurrenz nicht nur Herzfrequenz misst und die täglichen Schritte zählt, sondern über ein Mikrofon auch die Stimme seines Nutzers analysiert. Nach Amazon-Angaben kann das Armband zwischen förmlichen Geschäftsverhandlungen und einem wütenden Familienstreit unterscheiden – und Empfehlungen abgeben, die Stimme zu senken oder ruhiger zu sprechen.

Datenschützer zeigen sich entsetzt

Es dauerte nicht lange, bis Datenschützer ihr Entsetzen bekundeten. „Die Stimmung in Gesprächen zu analysieren, das ist ein massiver Eingriff in die Privatsphäre“, sagte etwa Datenschutzaktivistin Katharina Nocun.

Inzwischen ist „Halo“ wieder weitestgehend vom Markt verschwunden. Sein Vorhaben, in den Gesundheitsmarkt vorzustoßen, hat Amazon damit aber nicht aufgegeben. Ganz im Gegenteil: Inzwischen hat der Konzern den Nachfolger „Halo View“ vorgestellt. Auch dieses Gadget hat eine Stimmenanalyse eingebaut und tritt auf Wunsch auch mit der KI-Stimme Alexa in Verbindung.

Playlist nach Stimmenanalyse

Auch andere Anbieter versprechen sich von der Stimmdeutung kommerzielle Erfolge. Dem Musikstreamingdienst Spotify wurde im Januar 2021 ein entsprechendes Patent genehmigt. Mit einer Analyse der Stimme sollen Songs basierend auf dem „emotionalen Zustand, Geschlecht, Alter oder Akzent“ vorgeschlagen werden. Auch hier schlugen Skeptiker schnell Alarm.

Hunderte Künstler, Menschenrechtsgruppen und Akademiker hatten Spotify in einem offenen Brief aufgefordert, auf den Einsatz der Technik zu verzichten. Sie befürchten nicht nur eine Fehleranfälligkeit bei der Emotionsanalyse, sondern eine Manipulation der Nutzer, Diskriminierung und massive Verletzungen der Privatsphäre.

Auch wenn der Hintergrund von Schullers Forschung ein seriöser ist, kennt auch er das Problem mit dem Datenschutz. Bei Sammeln von Proben ist er auf Stimmen-Spenden angewiesen, zu denen er regelmäßig aufruft. Und natürlich, sagt er, müsse auch die Weitergabe an Dritte immer sorgfältig geprüft werden, gerade, wenn es sich um erkrankte Menschen handelt. „Es gibt in diesem Bereich viele ethische Fragestellungen, mit denen wir uns in Fachgruppen auseinandersetzen.“

KI als Therapeut?

Und doch ist der Forscher aus Augsburg von seiner Innovation überzeugt. Gerade beim Thema Depression habe eine KI sogar bisweilen Vorteile gegenüber einem echten Therapeuten. Eine US-Studie mit Kriegsrückkehrern aus dem Irak habe gezeigt, dass diese sich mit der KI deutlich unverstellter unterhielten als mit einem Experten. Grund dafür sei vor allem, dass man gegenüber der Maschine nicht das Gefühl haben muss, eine Erwartungshaltung erfüllen oder sich gerade bei schwerwiegenden Bindungsstörungen überhaupt einem Menschen anvertrauen zu müssen.

Schon bei seinen ersten Versuchen mit einer empathischen KI hatten Schuller und Kollegen festgestellt, dass sich die Probanden bis zu mehr als 30 Minuten mit einem Avatar unterhielten, der zwar emphatisch, aber nur mit kurzen und wenig gehaltvollen Kommentaren reagierte. Im Falle der Depression könnte die Stimmanalyse sogar eine therapeutische Funktion erfüllen. Dass das technisch bald möglich sein wird, davon ist Schuller überzeugt. „In schätzungsweise zehn Jahren wird es kein Problem mehr sein, dass man mit einer Computerstimme weitestgehend reden kann wie mit einem Menschen.“

Holistische Lösung

Schullers Vision ist eine holistische Lösung. Ein Armband, das über die Nutzerstimme möglichst viele Krankheiten frühzeitig erkennt. Und das ähnlich wie ein Fitnessarmband dazu motiviert, sich mit dem eigenen gesundheitlichen Zustand zu beschäftigen. Hier allerdings tritt auch ein ganz menschliches Problem zutage. Manchen, sagt Schuller, gehe es besser, wenn sie nicht alles über sich wüssten. „Am Ende wollen wir Probleme lösen und ganz sicher keine neuen schaffen.“

Christian Parth

Autor