Seit 20:03 Uhr Konzert
 
Mittwoch, 25. Mai 2016MESZ20:52 Uhr

Elektronische Welten / Archiv | Beitrag vom 26.03.2013

Wenn der Computer wie ein Mensch spricht

Retortenstimmen sind auf dem Vormarsch

Von Dirk Asendorpf

Retortenstimmen werden mit menschlichen Sprechern aufgezeichnet und dann vom Computer modelliert. (Deutschlandradio)
Retortenstimmen werden mit menschlichen Sprechern aufgezeichnet und dann vom Computer modelliert. (Deutschlandradio)

In der Warteschleife, bei der Durchsage am Bahnhof, in der Musik - immer häufiger sind Computerstimmen im Einsatz. Die Hersteller von Sprachsynthesesoftware können heute schon fast jede Stimme klonen.

"Auf Gleis sieben wird für Sie bereitgestellt: Intercity 1995 nach Frankfurt am Main, Hauptbahnhof."

Die Zugansagen am Bahnsteig hat längst eine Retortenstimme übernommen, und auch in den meisten Telefonwarteschleifen wird man von einer eisernen Lady aus dem Computer begrüßt. In immer mehr Informations- und Auskunftsdiensten kommt künstlich per Software zusammengefügte Sprache zum Einsatz – und nervt die Nutzer.

"Niemand mag Computerstimmen, die wie solche klingen."

Text-to-Speech heißt die Technik, die geschriebene Sprache so wie in dieser Werbebotschaft der Heidelberger Softwarefirma Aristech in gesprochene übersetzt.

"Wir haben uns daher erfolgreich der optimierten Sprachsynthese verschrieben. So natürlich wie möglich soll die Ausgabe klingen, die auf Text-to-Speech (TTS) Technologie basiert."

Alex heißt die dabei eingesetzte Kunststimme. Sie sagt zum Beispiel auch die aktuellen Staumeldungen auf der Telefonhotline von SWR3 an.

"Die A5 Karlsruhe Richtung Frankfurt ist zwischen Weiterstadt und Langen-Mörfelden wegen Bergungsarbeiten gesperrt, drei Kilometer Stau."

Michael Mende ist Geschäftsführer von Aristech.

Michael Mende: "Wir machen dann ein Skript, das heißt, wir bauen 1.000 Staumeldungen, die typisch für die Struktur einer Staumeldung sind. Und wenn Sie da anrufen beim SWR3, dann denken Sie wirklich, da sitzt der Alex und liest das Ganze vor. Nur wenn Sie mal ganz außerordentliche Situationen abwarten und anrufen, dann merken Sie: Ah ja, ist doch ne Sprachsynthese."

"Am Kreuz Neunkirchen auf der Überleitung zur A8 Richtung Neunkirchen steht ein defektes Fahrzeug."

Mindestens zehn, manchmal auch 20 Stunden lang muss ein Profisprecher im Tonstudio den eigens erstellten Text vorlesen, um die Datenbank mit Aussprachebeispielen zu füllen. Alle Standardmeldungen sind damit abgedeckt, der Rest wird aus möglichst langen Bausteinen aus der Datenbank zusammengesetzt. Worte, die sich dort gar nicht finden, werden aus sogenannten Diphonen gebildet, das sind kleine akustische Einheiten, die von der Mitte eines Lautes bis zur Mitte des nächsten Lautes reichen. Am Schluss werden die Übergänge mit einer speziellen Software geglättet. Obwohl ursprünglich von einem Menschen gesprochen, klingt das immer noch nicht richtig menschlich. Der Phonetiker Bernd Möbius von der Universität des Saarlandes untersucht die Gründe dafür.

Bernd Möbius: "Menschen wissen, was bereits gegebene Information ist, und welche Information neu ist. Und in Abhängigkeit von diesem Neuigkeitszustand passe ich meine Prosodie an, das heißt meine Sprachmelodie. Neue Information wird hervorgehoben, ich spreche ein bisschen langsamer, vielleicht auch lauter und Elemente im Satz, die bereits gegeben sind, kann ich deakzentuieren. Ich kann da schnell reden, ich kann das abschwächen. Das Sprachsynthesesystem versteht nichts."

Trotzdem macht die Technik Fortschritte. Den Inhalt eines Textes wird sie zwar wohl auch in 20 Jahren noch nicht verstehen. Doch die Zahl der in Datenbanken abgelegten Aussprachebeispiele wächst rasant.

Möbius: "Speech Optimizer ist lernfähig in Aussprache und Prosodie; das größte Lexikon deutscher Gegenwartssprache, das der Anwendung zugrunde liegt, wird dadurch stetig erweitert und verbessert."

Drei Viertel des Weges zur menschlichen Stimme hätten Forschung und Entwicklung bereits zurückgelegt, meint Bernd Möbius. Doch damit tut sich ein neues grundsätzliches Problem auf.

Möbius: "Menschliche Benutzer von Dialogsystemen und Auskunftsystemen erwarten eigentlich nichts anderes als eine perfekt natürlich klingende Stimme, sonst lehnen sie häufig diese Anwendungen ab. Paradoxerweise möchten sie aber eigentlich auch nicht hinters Licht geführt werden, sie möchten dennoch wissen, dass sie nicht mit einem Menschen sprechen, sondern mit einer Maschine."

Von dieser Regel gibt es jedoch eine Ausnahme, und zwar im Bereich der Medizin.

Möbius: "Menschen, die ihre Stimme durch eine Kehlkopfoperation verlieren, sollten Aufnahmen ihrer eigenen Stimme erstellen mit professioneller Unterstützung; und die synthetische Stimme, die sie dann abspielen können, hat zumindest den gleichen Klang wie ihre ursprüngliche Stimme."

Für Menschen ohne Kehlkopf wäre es ein Segen, wenn sich die Technik der Sprachsynthese weiter verbessert. Rundfunksprecher und Schauspieler fürchten sich eher davor. Michael Mende bekommt es zu hören, wenn er sie in sein Tonstudio bittet.

Michael Mende: "Professionelle Sprecher sind immer ganz sensibel was Sprachsynthese anbelangt. Weil da ist immer so die Angst da: Die klonen jetzt meine Stimme und dann bin ich nicht mehr erforderlich. Aber tatsächlich: Wir sind heute an nem Stand, wo es darum geht, Informationen bereitzustellen für irgendjemand, wo es nicht auf die Intonationsqualität ankommt, sondern nur drum, dass man das gut versteht. Wir können keine Hörbücher vertonen."

Jedenfalls noch nicht. Hans-Joachim Hübner ist Vertriebsleiter bei Sikom in Hannover, einem weiteren Anbieter von Sprachsynthesesoftware. Für ihn ist es ein Verkaufsargument, dass sich mit den neuen technischen Möglichkeiten auch Sätze sauber zusammenstellen lassen, die der Sprecher selber nie formuliert hatte.

Hans-Joachim Hübner: "Bei einem Kunden von mir ist es passiert, dass sie alle Texte fertig hatten, dann ist der, der den Text gesprochen hat, verstorben. Und die mussten wieder von vorne anfangen. Dann haben sie sich überlegt: Was machen wir, dass uns das nicht wieder passiert? Dann sind sie auf Text-to-speech gegangen."

Michael Mende hat bereits Dutzende Stimmen in seiner Datenbank gespeichert. Auf Wunsch lesen sie jeden beliebigen Text vor, den er in seinen Computer tippt.

Mende: "In der Tat können wir heute jede Stimme klonen – oder fast jede. Ich hab von meiner Tochter ne Stimme hier, ich kann eintippen: Ja Papa, Du hast immer recht. Und dann sagt meine Tochter das. Das würde ich in der Realität nie hören. Wie man das missbrauchen könnte, da hat man sich noch nicht so viel Gedanken drüber gemacht."

Mehr zum Thema:

Elektronische Welten 2012-09-12 - "Ich habe Sie verstanden" <br> Künftige Sprachcomputer können Emotionen erkennen *
Elektronische Welten 2011-09-28 - Wenn Computer telefonieren <br> Forscher wollen Sprachdialogsysteme verbessern *

Elektronische Welten

MedizinKrank gespielt
Eine Geige, eine Flöte, eine Mundharmonika und ein Banjo liegen auf einem Notenblatt.   (picture-alliance / dpa / Wolfgang Thieme)

Einige leiden unter Kreuzschmerzen, andere bekommen verkrümmte Finger: Viele Musiker leiden unter Berufskrankheiten. Wissenschaftler der ETH Zürich wollen den Ursachen häufiger Beschwerden auf den Grund gehen.Mehr

EmpfehlungenAbenteuer, Strategie, Denkspiel
Das Exemplar einer durchsichtigen Sonderedition des ersten Gameboys ist am 14.04.2014 im Computerspielmuseum in Berlin in einer Vitrine zu sehen. (picture alliance / dpa / Stephanie Pilick)

Im Sommer gibt es wenig Neues auf dem Spielemarkt, wir haben dennoch drei Spiele gefunden. Man kann sich als strategisch denkender Ermittler austoben, sich auf eine gefährliche Insel begeben oder ein Männchen durch ein Level zum Ausgang führen. Mehr

GefahrgutEin Roboter für den Treibstofftransport
Mitarbeiter in der PCK Raffinerie GmbH im brandenburgischen Schwedt  (dpa / picture alliance / Patrick Pleul)

Roboter gibt es heute in vielen Bereichen. Auch die Raffinerie im brandenburgischen Schwedt will künftig eine mobile Maschine einsetzen. Dort soll sich ein Roboter sogar in komplexen Situationen von selbst zurechtfinden.Mehr

weitere Beiträge

Wissenschaft und Technik

Drogen"Kommt ein guter Rauch"
Vier E-Shishas (dpa / picture alliance / Daniel Reinhardt)

Eine E-Shisha ist wesentlich kleiner als die orientalische Wasserpfeife und ähnelt in der Funktion einer elektronischen Zigarette. Die meist sehr bunten elektronischen Shishas machen Jugendliche glücklich − Eltern und Suchtexperten sind hingegen besorgt.Mehr

weitere Beiträge

Breitband

Das könnte sie auch interessieren

fghjghj