Die Avatare tanzen lassen
Die Gestik spielt bei Menschen eine wichtige Rolle. Roboter und ihre virtuellen Vettern – die Avatare – wurden nicht auf eine passende Mimik programmiert. Ein Forscherteam der Uni Bielefeld arbeitet an einem "virtuellen Agenten", der Gestik und Körpersprache beherrscht. Entstanden ist nun ein "virtueller Agent", der in Sachen Gestik und Körpersprache ein Multitalent zu sein scheint.
Was für ein Auftritt! Giovanni Trappatoni, legendärer Fussballtrainer aus Italien, beklagt sich - wort- und gestenreich - über seine Mannschaft.
Giovanni Trappatoni: "Diese Spieler - zwei oder drei - waren schwach wie eine Flasche leer. Haben sie gesehen - wie gespielt letzte Woche. Hat gespielt Trappatoni ..."
Ganz anders sehen die Auftritte der Bundeskanzlerin aus: Sie berührt vorsichtig alle zehn Fingerspitzen, wenn sie redet, formt die berühmte Pyramide. Langsam öffnet sie eine Hand.
Angela Merkel: "Ich sagte es: Wer A sagt muss auch B sagen".
Keine Frage: Jeder Mensch gestikuliert auf seine ganz eigene Weise und unterstreicht damit auch das Gesagte. Gestik ist die "Handschrift", die auch die Persönlichkeit zum Ausdruck bringt. Roboter können das jetzt übrigens auch ... so wie "Billy". Und Ramin - ein Doktorand aus Bielefeld - freut sich.
Ramin Yaghoubzadeh: "Es geht halt darum, dass man möglichst Menschen ähnliches gestisches Verhalten produzieren kann. Dass der Agent einfach dasteht und jederzeit ansprechbar ist."
Billy ist ein "virtueller Agent", eine Figur, die nur auf dem Bildschirm existiert. Sie kann verstehen, was Ramin Yaghoubzadeh spricht. Wenn Billy antwortet, dann bewegen sich auch seine Hände in einer Weise, wie auch Menschen agieren. Gerade zeigt Billy auf eine Spalte im Kalender.
Billy: "... am Donnerstag abends um 18.00 Uhr würde Dein Bruder gerne zu Besuch kommen. Ginge das?"
Ramin Yaghoubzadeh ist zufrieden mit seinem "virtuellen Gegenüber". Seit drei Jahren feilt der Doktorand der Informatik an der Figur. Billy soll verstehen, was man von ihm will, und dies auch zeigen ....
Ramin Yaghoubzadeh: "... er blickt zur Seite auf den Kalender, wenn da etwas Wichtiges erscheint, so dass ich auch weiß, dass er sich dafür interessiert - in Anführungsstrichen - und ich mich auch dafür interessieren sollte. Und mit den Händen zeigt er auch auf wichtige Termine."
Neuerdings bewegen sich auch noch Arme, Hände, Kopf und Körper. Die künstliche Figur gestikuliert - aber nicht irgendwie oder irgendwas - sondern abhängig vom gerade gesprochen Wort.
Ramin Yaghoubzadeh: "... zum Beispiel das Erfassen von den Händen aneinander. Das Tippen der Fingerspitzen aufeinander. Dann haben wir eine Geste gehabt, wo er sich so ein bisschen am Gesicht kratzt. Da haben wir auch festgestellt, wenn wir das zu oft machen, zufällig, dann wirkt das System sehr unruhig und nervös. Da gibt es anscheinend eine Frequenz, die nicht überschritten werden darf, bevor das dann sehr konfus wirkt."
Damit Billy nicht konfus wirkt, mussten die Wissenschaftler erstmal erkunden, wie wir uns bewegen, wenn wir miteinander reden. Um das herauszufinden, wurden zig Versuchspersonen interviewt und dabei auch gefilmt. Verblüffendes Ergebnis: Wenn wir sprechen, verwenden wir mehr als 5000 verschiedene Gestiken, sagt Prof. Stefan Kopp von der Technischen Fakultät der Uni Bielefeld.
Agent - mach die Geste größer!
Stefan Kopp: "Wir wissen, dass Persönlichkeit mit gewissen Ausdrucksweisen und auch mit gewissen kognitiven Fähigkeiten korreliert. Es wäre für uns ein Leichtes zu sagen, Agent, drücke Dich mal viel weitschweifender aus und mache viele Wörter und mach' auch viele Gesten und mach die Geste größer! Und wir wissen zum Beispiel, dass das zum Beispiel mit Extrovertiertheit korreliert."
Billy: "... das Treffen mit der Projektgruppe am Donnerstag um 10.00 Uhr kann so nicht stattfinden ..."
Nein, extrovertiert sollte Billy nicht werden. Der virtuelle Agent hebt nur ein bisschen die Schultern, als Zeichen der Entschuldigung, dass es am Donnerstag nicht klappt, dann öffnet er seine Hand als Zeichen dafür, dass es vielleicht noch eine Alternative gibt. Anfangs beherrschte Billy die Gestik von allen 25 Versuchspersonen, die Pate gestanden hatten, sozusagen als ein "Mittelwert einer mathematischen berechneten Ausdrucksweise". Nur leider wurde Billy dann nicht mehr verstanden.
Stefan Kopp: "Wenn wir unserem Modell beibringen, nur Daten von einem Sprecher und nicht von allen 25 zu verwenden, dann fängt der Agent an, sozusagen diese spezielle Ausdruckweise dieses einen Sprechers mehr oder weniger "nachzubilden". Und das wird von neutralen Beobachtern positiver wahrgenommen. Wenn wir also diesen Agenten irgendwelchen Dritten etwas erklären lassen, und wir können diesen Agenten entweder dieses Durchschnittsmodell verwenden lassen oder dieses spezielle, von dem einen Sprecher gelernte Modell, dann wird dieses spezielle Modell besser wahrgenommen."
Soll heißen: Billy wird besser verstanden, wenn seine Körpersprache und seine Gestik eine unverwechselbare und in sich stimmige Handschrift trägt, die nur von einem einzigen menschlichen Vorbild abgeleitet wurde. Das war die wohl wichtigste Erkenntnis der Computerwissenschaftler. Nur: Was sollen wir mit den menschlich agierenden Agenten überhaupt anfangen?
Stephan Kopp: "Woran wir in erster Linie arbeiten, sind Fähigkeiten zum intuitiven, guten, natürlichen Kommunizieren. Die bringen wir genauso gut auf Haushaltsroboter, aber eben auch auf solche virtuellen Avatare und Assistenten zum Beispiel. Auch letztere Systeme durchdringen den Alltag immer mehr. Rein textbasiert sehen wir sie immer mehr auf Webseiten zum Beispiel, bei IKEA, und diese Firmen wissen mittlerweile, dass solche Systeme helfen, die Anzahl der Anrufe im Callcenter zu verringern."
Gestikulierende Avatare sollen uns aber auch im Baumarkt erklären, wo der Hammer hängt. Auf dem Monitor von Geldautomaten und Fahrkartenschaltern sollen sie virtuell zur Seite stehen, wenn wir nicht mehr weiter wissen. Ob das dann eher nach Art und Weise von Angela geschieht, oder italienischer in Richtung Giovanni geht, das bleibt den Herstellern dieser Automaten überlassen.
Ramin Yaghoubzadeh: "Wiedersehen Billy, ich hab' keine Zeit mehr."
Billy: "Dann bis später, wiedersehen."