Kommunikation mit der grauen Kiste

Von Stephanie Kowalewski |
Bislang gestaltet sich die Kommunikation zwischen Computer und Anwender äußerst einseitig: eine Eingabe erfolgt in der Regel über Tastatur und Maus. Das könnte sich aber schon bald ändern. Forscher an der Hochschule Niederrhein arbeiten an der Verbesserung der maschinellen Wahrnehmung und bringen dem Computer Hören und Sehen bei.
"Sie haben nun die Möglichkeit die Ziffernerkennung dieses Spracherkennungssystems zu testen. Möchten sie es testen?"
"Ja."
"Bitte sprechen sie die Ziffern jetzt."
"13579"
"Ich habe die folgenden Ziffern erkannt: 13579. Entspricht dies ihrer Eingabe?"
"Ja"
"Das freut mich."

Und es freut vor allem Hans-Günter Hirsch, der das höfliche Spracherkennungsprogramm entwickelt hat. Die maschinelle Wahrnehmung ist nicht nur sein Forschungsgebiet, es ist auch die Zukunft der PC-Anwender, meint der Professor für Elektrotechnik und Informatik an der Hochschule Niederrhein.

"Was benutzen wir: Wir benutzen Tastatur, Mäuse zur Kommunikation mit einer Maschine, mit einem Rechner und ob das wirklich die menschenfreundlichste Art ist, mit einer Maschine zu kommunizieren, bezweifele ich."

Doch Sprache maschinell zu erkennen und zu verarbeiten, ist eine besondere Herausforderung für den Computer. Das liegt am riesigen Vokabular unserer Sprache und an den vielen Dialekten. Dass es dennoch immer besser klappt, liegt am vielen Training.

"Indem man sozusagen bei Training möglichst alle Varianten anbietet, die er nachher erkennen soll, alle möglichen Dialekte zum Beispiel und eine Möglichkeit besteht auch darin, ihm das sozusagen bei allen möglichen Umgebungsgeräuschen vorzuspielen und ihn das lernen zu lassen."

Dieses Trainieren ist die Basis aller maschinellen Wahrnehmungssysteme. Der Professor füttert sein Computerprogramm also mit allerlei Geräuschen, die eine Spracherkennung im Alltag erschweren: Auto- und Zuglärm, Restaurantatmosphäre usw. Die Maschine Computer soll so lernen, Sprache trotz der störenden Geräusche wahrzunehmen.

"Das heißt, sie benutzen das System und die Software, die dahinter steht, die versucht halt aus der Sprachpause, die vorher ist, zu schätzen wie sieht jetzt im Moment gerade die Hintergrundstörung aus."

Den folgenden englischen Satz, dass Canada im Jahre 1867 gegründet wurde, sollte das Programm also trotz großem Hall erkennen können.

"”Canada was established only in 1867.”"

Noch gelingt das nicht perfekt. Aber Hans-Günter Hirsch ist sicher, dass sein Forschungsvorhaben in Zukunft die Qualität von Spracherkennungsprogrammen wesentlich verbessern wird.
Mindestens ebenso schwierig wie die Spracherkennung ist die Wahrnehmung und Analyse von dreidimensionalen Bildern, wie sie zum Beispiel bei medizinischen Untersuchungen anfallen. Mit solch komplizierten Objekten beschäftigt sich Regina Pohl, Professorin für grafische Datenverarbeitung und Bildauswertung an der Hochschule Niederrhein.

"Je geringer die Kontrastunterschiede im Bild sind, je komplexer die Strukturen sind, desto schwieriger wird die Identifikation von diesen Objekten."

Eine recht einfache Anwendung der maschinellen Bildanalyse ist etwa das Lesen von Auto-Nummernschildern mit deren Hilfe dann die Zufahrt in ein Parkhaus ermöglicht wird. Die Menge der Zahlen und Buchstaben ist überschaubar und sie haben meist klare Konturen. Das wahrzunehmen klappt. Aber bei der Schichtaufnahme eines Tumors beispielsweise fehlt das alles. Es gibt keine klaren Konturen, alles scheint ineinander zufließen. Und doch muss der Arzt bei jeder Aufnahme das erkrankte Gewebe vom gesunden unterscheiden, den Tumor exakt markieren und vermessen.

"Und hier soll eigentlich eine Unterstützung vorgenommen werden. Dass eben der Arzt mit möglichst wenig Handgriffen die Markierung vornehmen kann. Dass er zum Beispiel nur noch einmal reinklickt und sagt, hier ist der Tumor und die Grenzen werden dann automatisch gefunden."

Klingt simpel, ist es aber nicht. Damit der Computer das leisten kann, muss Regina Pohl komplizierte Algorithmen finden, die der Wahrnehmungsleistung des menschlichen Auges zumindest nahe kommen. Eine bis jetzt noch nicht gelöste Aufgabe.

"Die Schwierigkeit ist eigentlich, dass man auch schon als ungeübter Mensch mitunter die Strukturen nicht so einfach findet. Das es doch sehr viel Erfahrung benötigt, um diese Bilddaten auszuwerten."

Und diese "Erfahrung" fehlt dem Computer noch. Dennoch bescheinigt Regina Pohle der visuellen maschinellen Wahrnehmung gerade im Medizinbereich eine große Zukunft.
Ihr Kollege Christoph Dalitz hat seine Professur für Datenverarbeitung mit der Liebe zur Musik und historischen Instrumenten verbunden.
Er entwickelt ein Programm, das mittelalterliche Tabulaturen, also Spielanleitungen für die Laute in einen maschinenlesbaren Code umwandelt.

"Da steht also …"
Da kann man natürlich viel mehr mit machen. Die kann man zum Beispiel in Datenbankensysteme füttern für Auswertungen, dann wieder auf der Musik oder man kann natürlich wieder ein Notenbild erzeugen oder man kann auch eine Klangübertragung machen. Das ist also vielseitiger verwendbar, als das Bild, was auf dem Papier ist."

Die besondere Schwierigkeit dabei ist, dass die Tabulaturen nicht gleich aussehen. Es gab damals kein standardisiertes Verfahren, wie wir es bei heutigen Partituren kennen.

"Hier haben wir fünf Linien, da sechs Linien, hier werden Zahlen verwendet, hier haben wir die Buchstaben zwischen den Linien, da haben wir sie auf den Linien, also es sind sehr starke Variationen. Und die Schwierigkeit besteht jetzt eben darin, ein System zu entwickeln, was das alles erkennt. Und da haben wir kein System entwickelt, was das ‚out of the box’ erkennt, sondern was trainierbar ist."

Und es funktioniert. Dass so unterschiedliche Dokumente wie Lautentabulaturen nun maschinell gelesen und verarbeitet werden können macht Hoffnung, dass der Computer zukünftig auch Briefe und Notizen verarbeiten kann. Doch der Wissenschaftler winkt ab.

"Handschriften oder Manuskripte das ist natürlich noch ein ganz dunkler Fleck. Da hackt es auf jeden Fall. Das ist was, das müssen wir auf jeden Fall angehen."