Wortfetzen für den Straßenverkehr

Von Po Keung Cheung |
Immer mehr Autofahrer lassen sich von der Stimme aus ihrem GPS-Navi den Weg weisen. Damit das funktioniert, füttern professionelle Sprecher die Geräte mit zahllosen einzelnen Worten und Lauten.
Längst haben wir die Stimme aus dem Navigationssystem schätzen gelernt. Sie erspart uns den Blick von der Fahrbahn weg auf den Monitor, das bringt Sicherheit beim Autofahren. Hinter der Computer-Ansage steckt ein echter Mensch. Und der muss eine Vielzahl an Voraussetzungen mitbringen, um überhaupt "Navi-Stimme" werden zu können.

"Das ist zum einen, dass es eine neutrale Stimme ist, eine freundliche Stimme und eine Stimme, die angenehm zu hören ist, die nicht zu hoch klingt, aber natürlich auch eine gewisse, so ein Mindestmaß an Autorität oder an Führung, so dass, denn letztendlich ist das eine Stimme, die mir Anweisungen gibt und ich als Autofahrer soll ihr möglichst natürlich und gerne folgen."

Fatima Vital arbeitet bei Nuance Communications, nach eigenen Angaben Marktführer bei Sprachausgabe-Technologien, im Fachjargon "Text-to-Speech", kurz: TTS genannt. Dazu gehört eben auch die Navigation. Das US-Unternehmen sorgt dafür, dass die Stimme in den kleinen Kasten kommt.

"Ähm, ist der Pegel okay so? Ja, also ich bin startklar. Gut! Biegen Sie in 80 Metern links ab, in die Rosenthaler Straße. Sie haben Ihr Ziel erreicht. Maximilianstraße 28 befindet sich auf der… noch mal: Maximilianstraße 28 befindet sich auf der rechten Seite. Ihr Ziel Maximilianstraße 28 befindet sich auf der rechten Seite."
Heike Hagen in einem Kölner Tonstudio. Die Berliner Profi-Sprecherin hat zuvor unter anderem Fernseh-, Radio- und Werbespots sowie Hörbücher besprochen. Nun ist die 40-Jährige die neue Stimme. Heike Hagen setzte sich in einem Casting gegen mehr als 100 Mitbewerberinnen durch. Monatelang saß sie im Studio, um der "Frau im Kasten" namens "Anna" die Stimme zu leihen, sechs bis acht Stunden täglich, drei Monate lang – eine echte Herausforderung auch für eine erfahrene Sprecherin:
"Also im Prinzip so zum Beispiel: Bitte biegen Sie in 50 Yards ab. Bitte biegen Sie in 100 Yards ab. Bitte biegen Sie in 150 Yards ab. Und das Ganze dann noch einmal, also mit allen Zahlen, das Ganze dann noch einmal mit Kilometern und das Ganze noch einmal mit nach links abbiegen und so geht das ja in einer Tour."

Wer jedoch glaubt, dass Heike Hagen alle Straßennamen Europas mit allen möglichen Anweisungen eingesprochen hat, täuscht sich. Denn statt ganzer Wörter bedient sich die Technologie einzelner Laute und setzt diese dann so zusammen, dass daraus sinnvolle Anweisungen entstehen. Fatima Vital von Nuance Communications:

"Das kann man sich ein bisschen vorstellen wie beim Scrabble, wo man einzelne Buchstaben hat, und aus diesen einzelnen Buchstaben kann man beliebige Wörter und Texte zusammenstellen. Genauso kann man das mit den Tönen machen, das heißt, die Aufnahmen werden in einzelne Töne, einzelne Laute aufgeteilt und können dann einen beliebigen Text wiedergeben, beispielsweise eben halt auch Straßennamen und Musiktitel, die es heute noch gar nicht gibt."

Die Wörter werden also den Sprechern in den Mund gelegt, indem der Computer aus den Lauten die passenden Wörter zusammensetzt, eben "Text to speech". Am Beispiel "Bahnhofsstraße" erklärt Fatima Vital wie die Aufnahmen zerlegt werden.

"Man hat da eher "b", "a", "nn", ein "hhh"-Laut und so weiter. Also es sind die Laute, die dann letztendlich in der Sprache vorkommen, aber das allein reicht nicht aus. Wenn man sich allein darauf beschränken würde, dann würde die Ausgabe doch noch immer sehr roboterhaft klingen. Das heißt, man bricht es eigentlich runter auf sehr, sehr kleine Einheiten, so dass man dann halt jeden Laut am Anfang eines Satzes, am Ende eines Satzes in verschiedenen Betonungen hat, die dann auch tatsächlich gut zu dem Text passen, den man dann wiedergeben möchte."

In 100 Metern links abbiegen.

Und das könnte auch jeder andere Text sein.

Hallo liebe Hörer. Schön, dass Sie uns eingeschaltet haben!

Je mehr Laute, desto besser und natürlicher die Aussprache. Statt 40 kämen bei Nuance mehr als 1.000 Wortfetzen zum Einsatz, so Fatima Vital. Trotzdem ist der Unterschied zum Menschen zu hören, wie auch Heike Hagen bemerkt, als sie zum ersten Mal auf "Anna" trifft.

"Das ist ganz interessant, wenn man sich da so selber sprechen hört und verpackt in eine andere Rolle. Also, für mich klingt es ein bisschen so, als würde ein Alien zu mir sprechen, so ein Außerirdischer irgendwie. Ja, es könnte auch so ein Roboterwesen von einem anderen Planeten sein, das irgendwie mit mir über zehn Ecken verwandt ist, keine Ahnung!"

Schon bald wird die neue Stimme "Anna" Autofahrern den Weg weisen. Doch die Navigation ist nicht die einzige Anwendungen für TTS, die denkbar ist. Das Vorlesen von SMS während der Fahrt ist keine Zukunftsmusik mehr.

"Andere Einsatzbereiche sind beispielsweise in einem Call-Center, wo halt beliebige Texte dann aufgesprochen werden oder aber das Vorlesen von eBooks. Sicherlich wird das nicht mit Audio-Büchern in Konkurrenz stehen, aber beispielsweise wird das eingesetzt, um sich Zeitungsartikel vorlesen zu lassen."

Heute die Navigation, morgen auch andere Anwendungen. "Anna" und ihre Kollegen werden immer häufiger anzutreffen sein, nicht nur im Auto.

Ich wünsche Ihnen allzeit gute Fahrt!


Mehr zum Thema:

Wenn das Navi einen Umweg sucht - Was tun bei Verkehrsstau?

Nie mehr verlaufen - Navigationsgeräte für Fußgänger