Wie Blinde in der Zeitung schmökern können
Viele Zeitungsartikel, Behördendokumente oder Bücher liegen nicht in Brailleschrift vor und können somit von blinden und stark sehbehinderten Menschen nicht gelesen werden. Hilfe für betroffene Menschen bietet das "Lesophon". Es liest gedruckte Texte vor und übersetzt sie zusätzlich in Brailleschrift.
"Das sieht aus wie ein Fotokopiergerät, ist in Wirklichkeit ein integrierter Scanner. Ich lege das auf eine Glasplatte, klappe den Deckel zu und aktiviere einfach das Mikrofon und sage ihm, was ich haben möchte, nämlich hier: Neuen Text einlesen!
Er hat mein Sprachkommando erkannt. Sie hören, wie der Scanner zu beginnt zu arbeiten. Und so bald er damit fertig ist, wird er anfangen mit Vorlesen."
Friedemann Kopp hat diese Handgriffe schon viele Tausend Mal durchgeführt. Doch immer wieder steht der Mitarbeiter von Novotech Allensbach fasziniert vor dem Gerät. Die Faszination erklärt sich wenige Augenblicke später, wenn das Gerät zu sprechen beginnt:
"Die Firma Novotech hat es sich zur Aufgabe gemacht, PCs zu dem zu machen, was sie längst sein sollten: Zum idealen Werkzeug, das dem Benutzer hilft, Aufgaben effizient zu lösen, ohne dass der Benutzer seine Hände an Tastatur und Maus binden muss."
In diesem Fall ist es ein Werbetext des Allensbacher Unternehmens Novotech, das seit 20 Jahren Spracherkennungssysteme für Blinde entwickelt. Genauso, wie der Text auf dem Papier steht, kommt’s gesprochen aus den kleinen Lautsprechern:
"Ja, dieses Texterkennungsprogramm versucht jetzt aufgrund der erkannten Zeichen einen richtigen Ascii-Text, wie der Fachmann sagt, zu machen. Das wird so gemacht, dass man früher diese Software trainiert mit allen Zeichen, mit allen Schrifttypen, die es gibt. Und aus diesen Schrifttypen bildet das Programm dann so eine Art Mittelwelt, wenn ich das mal so sagen darf. Und anhand dieses Mittelwertes und anhand dieses Musters wird dann versucht, den konkreten Typ, den wir da aufgelegt haben, zu erkennen."
Erklärt Hans-Jochaim Schorn, Geschäftsführer von Novotech. Dreh- und Angelpunkt ist die Programmierung: Die Software erkennt die eingescannten Buchstaben eines Textes, fügt daraus den Text zusammen. Der wiederum ist die Basis für das, was die künstliche Stimme im Lautsprecher vorliest. Doch das Lesophon kann noch einiges mehr.
Nun hat Friedemann Kopp nicht nur einen einfachen Text auf den Scanner gelegt, sondern die gefaltete Titelseite einer Tageszeitung – eine ‚harte Nuss’ für das Lesophon:
"Wir haben hier eine Zeitungsseite mit eins, zwei, drei, vier, fünf Spalten. Der mittlere Artikel hat eine Überschrift ‚Zurück im Gespräch'. Der geht über eine Spalte. Und hier unten kommt ein zweiter Artikel ‚In schwieriger Mission’, der geht über drei Spalten."
In diesem Fall muss die Software die Spaltenstruktur einer Zeitungsseite erkennen und in der Lage sein, einzelne Artikel gemeinsam mit der Überschrift isoliert zu erkennen und vorzulesen – das Ergebnis jahrelanger Entwicklungsarbeit am Bodensee.
Das Lesophon kann mit einem dutzend unterschiedlicher Stimmen sprechen. Und das ist mehr als bloße Spielerei. Hans-Joachim Schorn:
"Es ist natürlich klar, dass jeder spezielle Vorlieben hat. Zum Beispiel hört ein Mann lieber eine Frau und umgekehrt. Aber es gibt auch objektive Fakten: Es gibt viele Leute, die auch Probleme mit dem Gehör haben, so dass es also darauf kommt, in welchem Frequenzbereich diese Stimmen liegen, dass es manchmal einfach sinnvoller ist, mal höhere oder tiefere Stimmen zu wählen, einfach weil man sie dann besser versteht. Aus diesem Grund müssen wir eine gewisse Auswahl an Stimmen vorhalten, damit er die für ihn am verständlichste Stimme und, als zweites Kriterium, die für ihn sympathischste wählen kann."
Dabei gehen die Entwickler des Lesophons bei der Entwicklung der Stimmen mit großem Aufwand vor.
"Die modernen Stimmen – da nimmt man einen echten Sprecher. Der liest dann verschiedene ausgewählte Texte vor. Und anhand dieser Texte wird dann das, was er gesprochen hat, in kleine Schnipsel zerschnitten, also in Phoneme, Diphone, Triphone, wie der Fachmann sagt. Die werden dann abgespeichert. Und wenn jetzt ein Text vorzulesen ist, werden diese Schnipsel wieder anhand des vorzulesenden Textes zusammengelegt. Es wird eine Intonation drüber gelegt, damit das auch wie ein echter Sprecher klingt, und dann wird es vorgelesen."
"Am Bodensee beginnt der Süden und Allensbach liegt gegenüber der Insel Reichenau zwischen Konstanz und Radolfzell Die Ferienlandschaft ..."
Doch immer noch klingt die Lesophon-Stimme ein wenig synthetisch, wenn auch wesentlich besser als jene Stimmen, die man beispielsweise von digitalen Anrufbeantwortern her kennt. Dank eines kleinen rosafarbenen Kästchens neben dem Scanner können die Blinden übrigens auch vollständig auf die künstliche Stimme verzichten.
"Das Rosa-Kästchen ist eine Braille-Zeile mit 44 Zeichen. Und die Braillezeile hat zum einen die Aufgabe, dem Blinden, der die Blindenschrift kann, der die Braillezchrift kann, das sind in Deutschland 15 Prozent, den Bildschirm zu ersetzen. Das heißt: Er liest nicht mit den Augen, sondern mit den Fingern von dieser Braillezeile."
Wenige Augenblicke, nachdem der Scanner das Textdokument erfasst hat, beginnt die Braillezeile zu vibrieren. Dabei besteht ein Buchstabe aus acht Punkten. Deshalb werden die Punkte auf der Braillezeile entsprechend der Buchstabenfolge ständig abgesenkt; der Blinde kann sich darauf den Text, den das Lesophon ansonsten vorlesen würde, auch ertasten.
Doch bei allen Anwendungsmöglichkeiten gibt es auch noch in Zukunft großen Entwicklungsbedarf, um das Spracherkennungssystem für Blinde weiter zu verbessern. Hans-Joachim Schorn denkt bereits über ein Lesophon der nächsten Generation nach:
"Was wir noch nicht können oder was nur in Ansätzen möglich ist, ist natürlich, Handschriften zu erkennen. Da haben wir heute noch Probleme. Es geht schon, wenn man die Buchstaben getrennt schreibt, also so genannte Bockschrift schreibt, dann geht es schon. Aber gebundene Schrift, normale Schreibschrift – das funktioniert noch nicht!"
Er hat mein Sprachkommando erkannt. Sie hören, wie der Scanner zu beginnt zu arbeiten. Und so bald er damit fertig ist, wird er anfangen mit Vorlesen."
Friedemann Kopp hat diese Handgriffe schon viele Tausend Mal durchgeführt. Doch immer wieder steht der Mitarbeiter von Novotech Allensbach fasziniert vor dem Gerät. Die Faszination erklärt sich wenige Augenblicke später, wenn das Gerät zu sprechen beginnt:
"Die Firma Novotech hat es sich zur Aufgabe gemacht, PCs zu dem zu machen, was sie längst sein sollten: Zum idealen Werkzeug, das dem Benutzer hilft, Aufgaben effizient zu lösen, ohne dass der Benutzer seine Hände an Tastatur und Maus binden muss."
In diesem Fall ist es ein Werbetext des Allensbacher Unternehmens Novotech, das seit 20 Jahren Spracherkennungssysteme für Blinde entwickelt. Genauso, wie der Text auf dem Papier steht, kommt’s gesprochen aus den kleinen Lautsprechern:
"Ja, dieses Texterkennungsprogramm versucht jetzt aufgrund der erkannten Zeichen einen richtigen Ascii-Text, wie der Fachmann sagt, zu machen. Das wird so gemacht, dass man früher diese Software trainiert mit allen Zeichen, mit allen Schrifttypen, die es gibt. Und aus diesen Schrifttypen bildet das Programm dann so eine Art Mittelwelt, wenn ich das mal so sagen darf. Und anhand dieses Mittelwertes und anhand dieses Musters wird dann versucht, den konkreten Typ, den wir da aufgelegt haben, zu erkennen."
Erklärt Hans-Jochaim Schorn, Geschäftsführer von Novotech. Dreh- und Angelpunkt ist die Programmierung: Die Software erkennt die eingescannten Buchstaben eines Textes, fügt daraus den Text zusammen. Der wiederum ist die Basis für das, was die künstliche Stimme im Lautsprecher vorliest. Doch das Lesophon kann noch einiges mehr.
Nun hat Friedemann Kopp nicht nur einen einfachen Text auf den Scanner gelegt, sondern die gefaltete Titelseite einer Tageszeitung – eine ‚harte Nuss’ für das Lesophon:
"Wir haben hier eine Zeitungsseite mit eins, zwei, drei, vier, fünf Spalten. Der mittlere Artikel hat eine Überschrift ‚Zurück im Gespräch'. Der geht über eine Spalte. Und hier unten kommt ein zweiter Artikel ‚In schwieriger Mission’, der geht über drei Spalten."
In diesem Fall muss die Software die Spaltenstruktur einer Zeitungsseite erkennen und in der Lage sein, einzelne Artikel gemeinsam mit der Überschrift isoliert zu erkennen und vorzulesen – das Ergebnis jahrelanger Entwicklungsarbeit am Bodensee.
Das Lesophon kann mit einem dutzend unterschiedlicher Stimmen sprechen. Und das ist mehr als bloße Spielerei. Hans-Joachim Schorn:
"Es ist natürlich klar, dass jeder spezielle Vorlieben hat. Zum Beispiel hört ein Mann lieber eine Frau und umgekehrt. Aber es gibt auch objektive Fakten: Es gibt viele Leute, die auch Probleme mit dem Gehör haben, so dass es also darauf kommt, in welchem Frequenzbereich diese Stimmen liegen, dass es manchmal einfach sinnvoller ist, mal höhere oder tiefere Stimmen zu wählen, einfach weil man sie dann besser versteht. Aus diesem Grund müssen wir eine gewisse Auswahl an Stimmen vorhalten, damit er die für ihn am verständlichste Stimme und, als zweites Kriterium, die für ihn sympathischste wählen kann."
Dabei gehen die Entwickler des Lesophons bei der Entwicklung der Stimmen mit großem Aufwand vor.
"Die modernen Stimmen – da nimmt man einen echten Sprecher. Der liest dann verschiedene ausgewählte Texte vor. Und anhand dieser Texte wird dann das, was er gesprochen hat, in kleine Schnipsel zerschnitten, also in Phoneme, Diphone, Triphone, wie der Fachmann sagt. Die werden dann abgespeichert. Und wenn jetzt ein Text vorzulesen ist, werden diese Schnipsel wieder anhand des vorzulesenden Textes zusammengelegt. Es wird eine Intonation drüber gelegt, damit das auch wie ein echter Sprecher klingt, und dann wird es vorgelesen."
"Am Bodensee beginnt der Süden und Allensbach liegt gegenüber der Insel Reichenau zwischen Konstanz und Radolfzell Die Ferienlandschaft ..."
Doch immer noch klingt die Lesophon-Stimme ein wenig synthetisch, wenn auch wesentlich besser als jene Stimmen, die man beispielsweise von digitalen Anrufbeantwortern her kennt. Dank eines kleinen rosafarbenen Kästchens neben dem Scanner können die Blinden übrigens auch vollständig auf die künstliche Stimme verzichten.
"Das Rosa-Kästchen ist eine Braille-Zeile mit 44 Zeichen. Und die Braillezeile hat zum einen die Aufgabe, dem Blinden, der die Blindenschrift kann, der die Braillezchrift kann, das sind in Deutschland 15 Prozent, den Bildschirm zu ersetzen. Das heißt: Er liest nicht mit den Augen, sondern mit den Fingern von dieser Braillezeile."
Wenige Augenblicke, nachdem der Scanner das Textdokument erfasst hat, beginnt die Braillezeile zu vibrieren. Dabei besteht ein Buchstabe aus acht Punkten. Deshalb werden die Punkte auf der Braillezeile entsprechend der Buchstabenfolge ständig abgesenkt; der Blinde kann sich darauf den Text, den das Lesophon ansonsten vorlesen würde, auch ertasten.
Doch bei allen Anwendungsmöglichkeiten gibt es auch noch in Zukunft großen Entwicklungsbedarf, um das Spracherkennungssystem für Blinde weiter zu verbessern. Hans-Joachim Schorn denkt bereits über ein Lesophon der nächsten Generation nach:
"Was wir noch nicht können oder was nur in Ansätzen möglich ist, ist natürlich, Handschriften zu erkennen. Da haben wir heute noch Probleme. Es geht schon, wenn man die Buchstaben getrennt schreibt, also so genannte Bockschrift schreibt, dann geht es schon. Aber gebundene Schrift, normale Schreibschrift – das funktioniert noch nicht!"