Grünes Männchen im Handy: Der ICM-Entwickler Bernd Holz auf der Heide zeigt den virtuellen Helfer Womble auf dem Demonstrator des neuen Handys SX1
Sie heißen Cora, Liam, Cyberella oder Womble. Sie sehen aus wie George Clooney und Naomi Campbell oder sind klein, kugelig und grün. Sie beraten Kunden bei Banken oder Call-Centern, führen Besucher durch Ministerien oder Forschungsinstitute und lehren an Schulen oder Universitäten. Oder sie lesen, so die neueste Entwicklung von Siemens Information and Communication Mobile (ICM) in München, Kurzmitteilungen auf Handys vor. Noch ist ihr Sprachverständnis begrenzt und nur in eng definierten Gesprächssituationen wirklich leistungsfähig. Avatare, also Wesen, die nur im Computer existieren, sind so unterschiedlich wie ihre Aufgaben. Aber eins ist ihnen gemeinsam: Sie sollen den Zugang zu Systemen und Informationen erleichtern.
Ursprünglich waren die Wesen aus Pixeln und Polygonen als Chat-Identität ihrer Vertreter aus Fleisch und Blut fürs Internet gedacht, doch heute tummeln sie sich bevorzugt in Computerspielen und Lernsoftware. Die emotionale persönliche Ansprache, das Eigenleben der Figuren und nicht zuletzt der Spaßfaktor lassen selbst trockene Themen prickelnd erscheinen. Und vor allem: Virtuelle Assistenten können die Bedienung der unterschiedlichsten Geräte und Systeme deutlich vereinfachen. Während Avatare das Gesicht zum Kunden sind, erledigen die eigentliche Arbeit Software-Agenten (siehe Szenario 2015: Spezialagenten fürs Alltagsleben in Pictures of the Future, Herbst 2001). Sie sausen wie Spürhunde durchs Internet und suchen in Datenbanken, Flugplänen oder Bedienungsanleitungen nach Informationen. Ihre Beute übergeben sie Avataren, die sie dann dem Auftraggeber präsentieren.
"Living Characters ist unser Ausdruck für die Assistenten und Avatare in der virtuellen Welt", sagt Bernd Holz auf der Heide, ICM-Experte für User-Interface-Innovationen. Der Projektleiter für Living Characters entwickelte zusammen mit seinem Team die ersten Avatare, deren Lebensraum das Handy ist. Ab dem Jahr 2004 hopst, platscht, schmollt und freut sich ein knuffiger Großfuß namens Womble auf dem Siemens-Handy SX1. Der grüne Sympathieträger versüßt das mobile Telefonieren: Streifen in den Regenbogenfarben laufen über seinen Körper, wenn der Akku lädt. Wird er nicht gebraucht, jongliert er mit Bällen, beobachtet Schmetterlinge oder bläst einfach nur Seifenblasen. Später soll Womble dann die Post nicht nur bringen, sondern auch vorlesen mitsamt Gestik und Mimik. Insbesondere auf einem ab Frühjahr 2004 erhältlichen multimedialen Spaß-Handy für junge Leute soll Womble eine große Rolle spielen. Möglich wird das mit einer 3D-Engine, die das dreidimensionale Modell des Avatars in Echtzeit darstellt und mit Licht und Schatten zum Leben erweckt. 3D-Engines existieren schon für Spiele auf Handys und sie könnten unabhängig vom Handytyp für die Erzeugung von Avataren dienen.
Avatar in der e-Mail. Im Demonstrator funktioniert es schon: Womble agiert als Schnittstelle zu Software-Agenten, liest Mitteilungen aus e-Mails vor oder steigert bei eBay mit. Ebenso könnten aber auch Stars, Nachrichtensprecher oder Börsengurus künftig auf Handys ihre "Breaking news" verlesen oder Michael Jordan sich "persönlich" von seinen Fans verabschieden. "Die technischen Möglichkeiten sind gegeben, aber bei den Anbietern von Fremddiensten fehlen Avatare noch", bedauert Holz auf der Heide. Wenn diese Hürde überwunden und ihre Beschreibung standardisiert ist, wird man Avatare von einem Server an viele Netzteilnehmer oder von Partner zu Partner senden können die Grundvoraussetzung für ihre weitere Verbreitung. Derzeit entwickelt ein Konsortium, an dem Siemens und Nokia federführend beteiligt sind, den JSR-184-Standard. Er definiert alle Anforderungen, die es im Zusammenhang mit 3D-Animationen zur Zeit gibt. Firmenübergreifend wird damit auch die Welt der Avatare beschrieben.
Bedienungsanleitung mit Köpfchen. Wäre es nicht schön, bei der Fehlfunktion eines Gerätes einfach den persönlichen Assistenten anzurufen, der dann rät, was zu tun ist? Das Schlagwort für die Techniker heißt "natürlich-sprachliche Dialogsysteme". "Für das Hicom-Telefon optiset basic gibt es bereits eine anrufbare Bedienungsanleitung, die knapp 200 Hilfsinformationen bereit hält", sagt Dr. Hans-Ulrich Block, Linguist von der Abteilung Interaktions-Technologien bei Siemens Corporate Technology (CT) in München. Das von ihm mitentwickelte Sprachdialog-System ViCA soll Kunden oder Mitarbeitern den Zugang zu komplexen Hilfsdiensten ermöglichen.
"Hi, Embassi, könntest du bitte Jenseits von Afrika auflegen?" Der persönliche Avatar erscheint lächelnd auf dem Bildschirm: "Aber gerne", und der digitale Videorekorder beginnt zu surren. Zukunftsmusik? "Nein", sagt Thomas Heider, Informatiker am Fraunhofer-Institut für Graphische Datenverarbeitung in Rostock. "Im Modellwohnzimmer des Projektes Embassi funktioniert das schon." Embassi die "Elektronische Multimediale Bedien- und Service-Assistenz" ist ein Leitprojekt des deutschen Forschungsministeriums (BMBF). Vier Jahre lang arbeitete Heider mit anderen Fachleuten an neuen Benutzerführungen für Geräte der Heimelektronik, die sich mittels Gesten, Mimik, Texteingabe oder Sprache bedienen lassen. Der Planungsassistent von Embassi entwickelt sogar geräteübergreifende Strategien, gleicht also etwa die Lampen im Zimmer und die Bildschirmhelligkeit des Fernsehers ab. Beim Videorekorder führt das System auf Zuruf des Filmtitels selbständig alle Einzelaktionen aus: vom Finden der richtigen Medienquelle über die Helligkeitssteuerung bis zum Abspielen des Films. Allerdings sind noch manche Hürden zu überwinden: Wenn in einer Unterhaltung das Wort " dunkel" fällt, darf nicht das Licht ausgehen. Daher versucht man, das System anzusprechen mit "Embassi, bitte" ähnlich wie dies Captain Kirk im Raumschiff Enterprise macht (Software-Komponenten abrufbar unter: www.embassi.de/open_embassi/).
Auf Gestikerkennung baut Hans Röttger bei Siemens Corporate Technology (CT) in München. Im BMBF-Leitprojekt SmartKom (www.smartkom.org) hat CT für den Bereich Smart Kom-Public eine multimodale Kommunikationszelle konzipiert. Das gute alte Telefonhäuschen soll mit Bildschirmtelefon, Internetzugang und Dokumentenkamera und weiterentwickelt werden. Sprache, graphische Bedienoberfläche und Gestik sollen etwa die Reservierung von Kinokarten erleichtern. Im natürlich-sprachlichen Dialog mit einem Avatar soll der Nutzer Filminhalte, Darsteller und Wegbeschreibung erfragen oder Karten reservieren können. Die SIVIT-Technologie zur Gestenerkennung (Siemens Virtual Touchscreen) ersetzt zudem in manchen Informationskiosken die Maus. Auch ein interaktives Einkaufsfenster wurde 2002 in Düsseldorf getestet (Bild). Der Kunde deutet auf Artikel im Schaufenster und kann sich so informieren, ohne das Gebäude zu betreten. Per Videokamera erkennt das System die Geste und setzt sie in einen Mausklick um.
Auch im Auto wird es personalisierte Bordcomputer geben, "allerdings wohl frühestens in zehn Jahren", prognostiziert Dr. Hans-Wilhelm Rühl, der bei Siemens VDO für die Integration von Sprachmodulen in die Fahrzeugumgebung zuständig ist. 2000 Wörter erkennt das Navigationssystem, das er für ein Oberklasse-Fahrzeug konzipiert hat. In drei Jahren werden es vermutlich mehr als 8000 Wörter sein. "In fünf Jahren sind wir vielleicht so weit, dass der Fahrer angeben kann: Ziel Hamburg, Radiosender FFN, ohne für jedes spezielle System einen Knopf drücken oder sich ein spezielles Kommando merken zu müssen", sagt Rühl. Aber in der rauen Umgebung des Autos muss das System wesentlich robuster sein als der heimische Computer oder das Telefon. Die Spracherkennung muss gezielt dem Fahrer zuhören und nicht etwa den Kindern auf dem Rücksitz. Rühl ist dennoch überzeugt, "dass sich in einigen Jahren alles, was an Infotainment, Navigationssystemen oder e-Mail im Autocockpit vorhanden ist, sprachlich bedienen lässt".
Der Hilfesuchende wählt die Nummer des Virtuellen Call Center Agenten (ViCA) und kann dann sein Anliegen in natürlicher Sprache vorbringen. Das System fragt die fehlenden Parameter ab. Zeitraubendes Aufzählen von Optionen, "Wenn Sie Ja wollen, tippen Sie die Eins, wenn Sie Nein wollen, die Zwei, ... , wenn Sie etwas Anderes wollen, die Sieben", bleibt dem Anrufer erspart. So reagiert der Dialog-Partner etwa bei der Anfrage "Wie kann ich das Anrufsignal abstellen?" auf die Informationseinheit "Anrufsignal". Er erwidert z.B.: "Um das Anrufsignal für Ihr Telefon abzustellen, nehmen Sie den Hörer ab und geben Sie Stern 97 ein." Bei jedem Dialogschritt wird der Menübaum dynamisch neu berechnet, daher unterbleiben unnötige Abfragestrukturen. Ein Anwender, der sich mit dem System auskennt und die notwendigen Informationen in einem Satz nennt, kommt sehr schnell zum Ziel. Bei mehrdeutigen Eingaben, wie sie unerfahrene Nutzer oft machen, fragt die Dialogmaschine einfach nach. Dabei erkennt ein Dialoginterpreter auch, wenn er nicht mehr weiterhelfen kann und leitet in diesem Fall an einen menschlichen Agenten weiter. Interessant ist so etwas auch für Hausgeräte: Da Waschmaschine, Herd und Kühlschrank keine PC-Schnittstelle besitzen, lassen sich natürlich-sprachliche Bedienungsanleitungen nur schwer ins Gerät integrieren. "Es sei denn, der Betreiber bietet ein natürlich-sprachliches Helpdesk, wie wir es entwickelt haben, als Service für seine Kunden an", sagt Block.
Charaktere mit Persönlichkeit. "Virtuelle Assistenten wandeln immer auf einem schmalen Grat zwischen Akzeptanz und Ablehnung", weiß der gelernte Psychologe Bernd Holz auf der Heide. Sehen, hören, fühlen all diese menschlichen Sinne sprechen virtuelle Charaktere an, um die Bedienung von Geräten zu vereinfachen. Damit sie statt der Sinne aber nicht unseren Unmut erregen, muss man sich auf sie verlassen und mit ihnen sprechen können. Ihre Handlungen, sagt Holz auf der Heide, müssen nachvollziehbar sein. Aber gerade in ihrer eigenwilligen Persönlichkeit und in ihrer Unvorhersehbarkeit liegt, wie beim Menschen, auch eine Faszination. Sie dürfen allerdings nicht zu eigenmächtig handeln und unsinniges Nachfragen nervt ebenfalls, so die einhellige Meinung von Experten und Anwendern. Da die virtuellen Assistenten im Auftrag ihres Meisters agieren, sind für rechtsverbindliche Transaktionen wie bei Versteigerungen auch Sicherheitsaspekte von entscheidender Bedeutung. "Durch die digitale Signatur wird die Authentizität und Integrität des Agenten gewährleistet der Assistent kann eindeutig seinem Benutzer zugeordnet werden" erläutert Kai Fischer, Sicherheitsexperte bei CT in München. Wegen der zunehmenden Komplexität der Systeme, wird der Bedarf an benutzerfreundlichen Assistenz-Systemen weiter stark wachsen. Bordcomputer im Auto sowie HiFi- oder Videoanlagen (siehe Kasten oben) sind nur der Anfang. Künftig sollen Living Characters auch Emotionen erkennen und sich Vorlieben und Abneigungen ihres Benutzers merken. Bei Flugangst wird dann auf den Zug zurückgegriffen und bei der Restaurantauswahl fallen vielleicht alle Gaststätten mit deftiger Küche von vornherein unter den Tisch. Im Idealfall ändern die Living Characters ihr Verhalten auf der Basis von Erfahrungen.
Avatare in Aktion: Womble, die grüne Kugelfigur, liest e-Mails vor und assistiert dem Nutzer. Wenn gerade nichts passiert, spielt er auch "aus Langeweile" auf dem Display. Ein anderer Avatar in Gestalt eines jungen Mannes hilft beim Kennenlernen der Handy-Funktionen
Avatare dienen zudem der zwischen- menschlichen Kommunikation. Sie können als 3D-Bild unseres Konterfeis oder einer Fantasiefigur auf dem Handy unseres Gesprächspartners erscheinen und lächelnd etwa eine Einladung zum Konzert annehmen. Technisch wäre es bereits möglich, sein Foto als Bilddatei einem Softwaredienst im Internet zu senden. In Sekundenschnelle erhält man ein animiertes Modell zurück und hat sich so einen virtuellen Zwilling erschaffen (siehe Beitrag Das lachende Handy in Pictures of the Future, Frühjahr 2003).
Durch Kamera, Mikrofon und Sensoren im Handy bekommt der Avatar Kontakt zur realen Welt. Echte Interaktionen zwischen Mensch und virtuellem Charakter werden möglich. "Der Womble von morgen setzt sich eine Sonnenbrille auf, schleckt ein Eis und fragt mich, ob ich auch eins möchte. Und dann präsentiert er mir den Weg zur nächsten Eisdiele", begeistert sich Bernd Holz auf der Heide. "Doch die eigentliche Intelligenz der Living Characters, die diese Handlungen erst ermöglicht, kommt aus der mobilen Netzinfrastruktur. So viel Rechenleistung hat heute noch kein Handy."
Und Intelligenz ist wichtig, denn das Einsatzgebiet der virtuellen Charaktere ist groß. Schließlich sollen sie uns künftig möglichst viele Routineaufgaben in der virtuellen Welt abnehmen, damit wir mehr Zeit haben, die Attraktionen der realen Welt zu genießen.
Birgitt Salamon