"Ich habe Sie verstanden"

Von Po Keung Cheung · 12.09.2012
Wer schon einmal eine Telefon-Hotline angerufen hat, kennt sie: Computer, die die menschliche Sprache erkennen können. Die Forschung arbeitet bereits an der nächsten Generation. Computer sollen künftig auch die Persönlichkeit des Sprechers erfassen.
Sebastian Möller und Tim Polzehl bei der Forschungsarbeit: Der Professor und der Doktorant des T-Labs, dem gemeinsamen Forschungs- und Entwicklungsinstitut der Telekom und der Technischen Universität Berlin, werten unzählige Stimmproben aus. Rund eintausend Sprecher, die sie im Laufe der Zeit aufgenommen haben. Hören, diskutieren, dokumentieren. Und versuchen, sich ein Bild von den Probanden zu machen. Eine Sisyphusarbeit. Tim Polzehl:

"Wir haben zum Beispiel für die Persönlichkeitseinschätzung mehr als 3000 verschiedenen Persönlichkeitstests bei uns hier in den Labs durchgeführt, um zum Schluss sagen zu können: Jawohl, es gibt zehn verschiedene Ausprägungen, wie ein extrovertierter, ein introvertierter vielleicht sich ausdrückt."

Bislang waren Spracherkennungssysteme nur in der Lage, feststehende Begriffe zu erkennen, egal wie sie ausgesprochen wurden. Allerdings kann zum Beispiel das einfache Wort "ja" durchaus unterschiedliche Bedeutung haben, je nachdem wie es betont wird, was auch die zahlreichen Tests mit den Sprechern belegen.
"Der User war gelangweilt und zwar wenn er von oben nach unten lange und monoton die Stimme runterzieht. Anders herum, wenn der User vielleicht 'ja!' sagt und die Stimme geht von unten nach oben, dann kann es zum Beispiel eine Aufregung bedeuten, es kann Freude bedeuten, es kann aber auch eventuell Ärger bedeuten, wenn der User gleichzeitig die Stimme verschärft oder verengt. 'Ja, ja!', dann bin ich offensichtlich ärgerlich."

Künftige Sprachcomputer sollen in der Lage sein, das zu erkennen. Dies kann beispielsweise bei Telefon-Hotlines nützlich sein, indem das System entsprechend reagiert, wenn sich ein Anrufer beschweren will. Sebastian Möller.

"Gerade bei den starken Emotionen, insbesondere Ärger natürlich, ist es wichtig, dass ein Computer mitbekommt und dass der Mensch nicht einfach mit dem normalen Computerablauf weiter konfrontiert wird, sondern dass darauf eingegangen wird. Dann könnte er darauf reagieren, entweder, indem er zum Beispiel seine Dialogstrategie ändert oder indem er im schlimmsten Falle dann an einen Menschen weiterleitet."

Auch die normale Spracherkennung kann dadurch verbessert werden. Wenn der Computer in der Lage wäre, unterschiedliche Sprechweisen und Aussprachen zu erkennen, könnte der Hinweis: "Ich habe Sie nicht verstanden" in Zukunft vielleicht seltener vorkommen. Und für den Menschen könnte das Kommunizieren mit der Technik auch viel angenehmer werden, anders als heute, sagt Tim Polzehl.

"Vielleicht möchten Sie einfach intuitiver, einfach interaktiver drauf losreden, so wie ich jetzt vielleicht zu Ihnen spreche. Ja, ich habe eine gewisse Geschwindigkeit, ich überschlag mich manchmal, ich hab Tonhöhen hoch und runter, genau diese Parameter möchte ich natürlich auf natürlich Weise auch benutzen, wenn ich mit Maschinen spreche. Also müssen die Maschinen auch in der Lage sein, diese Parameter zu erkennen."

Bis dahin ist es allerdings noch ein weiter Weg. Denn die Computer müssen die Verhaltensmuster erst einmal erlernen. Und dafür muss zunächst der Mensch ran, der Forscher, der sich die unzähligen Stimmproben anhören muss und die entsprechende Software programmiert. Sind solche Emotionen erkennende Systeme erst einmal vorhanden, dann könnten viele Bereiche davon profitieren. Sebastian Möller:

"Stellen Sie sich zum Beispiel ein Navigationssystem vor und Sie merken, dass dieser Mensch, der da rein spricht, total aufgeregt ist. Dann macht es wahrscheinlich nicht Sinn, ihm da jetzt noch stundenlang irgendwelche Weghinweise vorzulesen. Stellen Sie sich ein Computerspiel vor, wo natürlich sehr viel mit Emotionen gearbeitet wird und wenn ein Computerspiel auch mit Sprache funktioniert, dann wäre es natürlich wichtig, diese Emotionen des Nutzers auch mitzubekommen. Hier haben wir einen Sprecher, der an sich stimmlich recht normal spricht, aber sehr zweifelnd sich ausdrückt, der, ja, der vielleicht Angst hat, Angst empfindet, vielleicht mitempfindet, mit der Sprache, die er hört."

Computer, die Angst oder Aufregung aus der Stimme heraushören können. IT-Experten von der Columbia-Universität in den USA wollen auch diesen Aspekt für ihr Projekt nutzen: Ein Programm, das erkennen soll, ob ein Mensch die Wahrheit sagt oder nicht. Das wäre die moderne Variante des Lügendetektors.

In ersten Tests soll das System bereits funktioniert haben: Danach hat der Computer 70 Prozent der Lügen erkannt, der Menschen konnte nur 57 Prozent entlarven. Dennoch T-Labs-Professor Sebastian Möller hat Zweifel.

"Das kann man natürlich versuchen, auch Lügen rauszubekommen aus der Stimme. Aber Sie wissen, dass es auch Menschen nicht ganz leicht fällt und dass es genug Menschen gibt, die auch in der Lage sind, das gut zu kaschieren, die gut schauspielern können. Deshalb ist ein solches Lügendetektorergebnis immer etwas fragwürdig. Es ist immer nur eine statistische Entscheidung, ein Mensch, ein Gericht oder ein Gesetzgeber muss darüber entscheiden, welche Sicherheit denn notwendig ist, um tatsächlich das Ergebnis auch zu verwenden."

Auch ein Missbrauch der Ergebnisse, die solch ein Computer sammelt, wäre nicht ausgeschlossen. Aber das, so der Professor, sei eine Frage der Ethik, nicht der Technik.


Links auf dradio.de:
Wenn Computer telefonieren. Forscher wollen Sprachdialogsysteme verbessern
Die Computerautos kommen
Internationaler Auto-Salon Genf

Computer machen Zeitung
Mehr zum Thema