Liu Yanghua und Thomas Riegel können mit wenigen Mausklicks in einem Computerbild Emotionen wie Freude oder Trauer erzeugen
Gerhard Schröder lacht. Auf Knopfdruck. Thomas Riegel von Siemens Corporate Technology in München-Perlach bewegt die Maus, und Schröder blickt plötzlich grimmig vom Flachbildschirm, gerade so, als habe der echte Bundeskanzler soeben eine neue Konjunkturprognose auf den Tisch bekommen. "Wir haben Schröder genommen, weil das Gesicht jeder kennt," sagt Riegel grinsend. "Wir hätten natürlich auch jedes andere Bild nehmen können."
Das Gesicht von Schröder ist auf dem Computer gespeichert. Riegel und seine chinesische Kollegin Liu Yanghua haben aus dem starren Foto eine zweidimensionale Animation gemacht in ein paar Minuten und mit wenigen Mausklicks. "Ich muss nur 20 Punkte auf dem Foto anwählen und dann ein bisschen anpassen", erklärt die 24-jährige Doktorandin von der Tsinghua-Universität in Peking. Ein Jahr hat sie bei Siemens verbracht, Ende 2002 ist sie in ihre Heimat zurückgekehrt. Ihr Nachfolger Zhang Jun ist schon da. Die Kooperation mit der renommierten chinesischen Elite-Universität besteht seit etwa fünf Jahren. Junge Wissenschaftler beginnen ihre Dissertation in China und kommen dann zu den Multimedia-Spezialisten von Corporate Technology.
Den Bundeskanzler am Computer zum Lachen zu bringen, findet vielleicht nicht jeder lustig. Aber diese Entwicklung birgt für eine Anwendung auf Mobiltelefonen großes Potenzial. Denn mit dem Verfahren der Siemens-Forscher wäre es möglich, dass ein Handynutzer ein soeben mit der integrierten Digitalkamera aufgenommenes Bild direkt am Display in einen animierten Avatar verwandelt und per MMS verschickt. "So weit sind wir noch nicht", räumt Riegel ein. Derzeit bearbeiten die Forscher die Bilder noch am PC. "Aber künftig kann man sicher die Avatare auch direkt auf dem Handy erzeugen." Denkbar ist auch, dass ein animiertes Gesicht am Mobiltelefon oder Mini-Computer empfangene e-Mails oder den Text von Webseiten vorliest.
Riegel und seine chinesischen Mitarbeiter setzen bei ihrem Verfahren auf MPEG-4. Mit diesem internationalen, von Siemens mitentwickelten Standard können Multimediadaten wie Video, Audio, Fotos oder auch dreidimensionale Bilder sehr effizient übertragen werden und das auch schon in heutigen Kommunikationsnetzen. Die Verwendung des Standards hat den Vorteil, dass sich die Technik in kurzer Zeit unter Handynutzern verbreiten könnte. Andere Unternehmen haben eigene Entwicklungen, die aber nur mit spezieller Software funktionieren und daher nicht ohne weiteres mit verschiedenen Netzbetreibern und Handy-Modellen kompatibel sind.
Rasterpunkte für ein Lachen. "Obwohl wir einen Standard verwenden, ist es keine leichte Aufgabe, ein Computerprogramm zu schreiben, das ein Modell eines Gesichts abbildet", sagt Liu. Um das Abbild realistisch zu machen, muss der Computer aus den 20 erfassten Punkten durch geschickte Extrapolation 200 bis 300 Gitterpunkte erzeugen, die das Gesicht wie ein Raster überziehen. Für ein Lachen etwa müssen ganz bestimmte Gitterpunkte in Bewegung versetzt werden. Begonnen haben die deutsch-chinesischen Forscher mit dreidimensionalen Avataren, die sich aber für einen Einsatz auf dem zweidimensionalen Handy-Display wegen des hohen Rechenaufwands nicht eignen. Liu hat daher ein Programm geschrieben, das Gesichtsausdrücke wie Freude, Zorn, Überraschung oder Traurigkeit in zwei Dimensionen darstellt. "Im Vergleich mit dreidimensionalen Avataren brauchen wir nur ein Fünftel der Rechenkapazität", erklärt Liu. Statt der heute oft verwendeten "Emoticons" wie ;-) oder :-( lassen sich damit Figuren, die Emotionen zeigen, von Handy zu Handy übertragen.
An der Tsinghua-Universität beendet Liu nun ihre Doktorarbeit bei Professor Xu Guang-You vom Institut für Mensch-Computer-Interaktion der Fakultät für Computerwissenschaften. Neben Avataren beschäftigt sich Xus Team auch mit Gesichtserkennung und Sprecheridentifikation. Die Forscher haben ein Programm entwickelt, das die Position von menschlichen Gesichtern auf Videobildern in weniger als 100 ms erkennt, ohne sie jedoch individuell zu identifizieren. Die Software konzentriert sich auf sichere Kennzeichen für ein Gesicht, etwa dunkle Balken über einem hellen Streifen wie Augen mit Brauen vereinfacht aussehen. Die Identität der Person ermittelt dann ein weiteres Programm zur Gesichts- und Stimmenerkennung. Mit der Technik hat Xu einen intelligenten Vorlesungssaal geschaffen.
Mehrere Kameras und Mikrofone erkennen den Professor, der die Vorlesung hält, und erteilen ihm Zugriff aufs Informationssystem. Den Gesten oder Sprachbefehlen des Vortragenden folgend verdunkelt das Programm beispielsweise die Beleuchtung für eine Diaschau. Auf die PC der Studenten werden die entsprechenden Arbeitsmaterialien geladen. Das System zeichnet die Vorlesung auch auf, was den Studenten die Möglichkeit gibt, den Stoff von überall per Internet via Multimedia-Streaming nachzuholen. Dabei passt es die Inhalte der Bandbreite an; so verschickt es etwa Farbbilder nur im Daten sparenden Schwarz-Weiß-Format.
Die Kooperation mit Siemens beschränkt sich auf die Avatare, beeinflusst aber indirekt auch die anderen Projekte des Multimediaexperten Xu. "Wir waren zu akademisch", räumt er ein. "Siemens sagte uns etwa, dass für eine breite Anwendung unserer Avatare der MPEG-4-Standard sehr wichtig sei." Das Unternehmen gebe den Forschern viele Anregungen aus der Praxis. Für Siemens wiederum ist der enge Kontakt zu einer der bedeutendsten Universitäten Chinas wichtig. Der personelle Austausch bringt für Xu zwei Vorteile: Die Studenten bekommen Einblick in die Kultur des Westens. Außerdem wissen sie nach der Zeit bei Siemens, worauf es in der Industrie ankommt. "Das Wissen geben sie an die Kollegen in Peking weiter. Daher profitieren letztlich viel mehr Leute als nur die Austauschstudenten", sagt Xu. Seine Doktorandin Liu Yanghua ergänzt: "Ich habe in Deutschland sehr viel übers Programmieren gelernt". Und es gefiel ihr, den deutschen Kanzler zum Lachen zu bringen.
Norbert Aschenbrenner