FuE-Kooperation – Spracherkennung
Mein Handy versteht Chinesisch
Kooperationen dienen zur Ressourcenbündelung, nicht zuletzt auch in der Forschung. Darum arbeitet Siemens weltweit mit Partnern zusammen – z.B. seit 1996 mit der Shanghai Jiao-Tong University und der Tsinghua University (Peking) auf dem Gebiet der automatischen Sprachverarbeitung.
"Dies ist ein Siemens-Spracherkennungssystem" schreibt der Computer auf Chinesisch – eine wahre Aussage voller Selbstbezug
("Ich brauche ein Taxi!") ruft der Geschäftsmann in Shanghai, und prompt wählt sein Handy die Nummer der Taxizentrale. Zukunftsmusik? Nicht unbedingt. Was bisher nur bei wenigen Anwendungen funktioniert, soll bald weltweit die Bedienung von Geräten aller Art revolutionieren: die automatische Spracherkennung und Sprachsynthese. Ein kurzer Zuruf genügt, und das Handy wählt die gewünschte Nummer, die Waschmaschine schaltet auf Schongang, und der Fernseher stellt den Lieblingssender ein. Um dies zu erreichen, müssen die Forscher und Entwickler jedoch viele sprachspezifische Daten erfassen und aufbereiten, mit deren Hilfe sie dann die automatischen Spracherkenner anpassen und optimieren. Wer z.B. den chinesischen Markt mit seinen 1,3 Milliarden Menschen nutzen möchte, muss zumindest die komplexen Sprachen Mandarin und Kantonesisch analysieren.
("Ich brauche ein Taxi!") ruft der Geschäftsmann in Shanghai, und prompt wählt sein Handy die Nummer der Taxizentrale. Zukunftsmusik? Nicht unbedingt. Was bisher nur bei wenigen Anwendungen funktioniert, soll bald weltweit die Bedienung von Geräten aller Art revolutionieren: die automatische Spracherkennung und Sprachsynthese. Ein kurzer Zuruf genügt, und das Handy wählt die gewünschte Nummer, die Waschmaschine schaltet auf Schongang, und der Fernseher stellt den Lieblingssender ein. Um dies zu erreichen, müssen die Forscher und Entwickler jedoch viele sprachspezifische Daten erfassen und aufbereiten, mit deren Hilfe sie dann die automatischen Spracherkenner anpassen und optimieren. Wer z.B. den chinesischen Markt mit seinen 1,3 Milliarden Menschen nutzen möchte, muss zumindest die komplexen Sprachen Mandarin und Kantonesisch analysieren.
"Siemens kooperiert auf diesem Gebiet mit führenden chinesischen Universitäten", erläutert Herbert Tropf, Senior Consultant bei Siemens Corporate Technology in München und wesentlicher Initiator der deutsch-chinesischen Zusammenarbeit. "Zum einen geht es um die Weiterentwicklung der automatischen Spracherkennung in den Bereichen "Speech Driven Teleservices" – wie Festnetztelefone, Mobiltelefone oder Internettelefonie – und "Speech Driven Interfaces for Consumer Applications" – wie Fernseher, Waschmaschine oder Personal Digital Assistant." Der zweite Schwerpunkt sei die Weiterentwicklung der automatischen Sprachsynthese, insbesondere das Vorlesenlassen von unbeschränkten Texten mit einer möglichst natürlichen Sprechweise. Beides, so Tropf, sei alles andere als einfach: Bei der Spracherkennung durch den Computer stellt die erhebliche Variationsbreite in der Sprechweise die Herausforderung dar, also die Dialektfärbung und die (Un)deutlichkeit der Aussprache. Dazu kommen die unvermeidlichen Umgebungsgeräusche. "Bei der Sprachsynthese hingegen müssen wir nicht nur auf die Verständlichkeit, sondern auch auf die Natürlichkeit der computergenerierten Sprachausgabe achten, da der Mensch in dieser Hinsicht besonders sensitiv und kritisch ist." Das Chinesische wird zudem noch durch die unterschiedlichen Tonmuster erschwert, da die Tonhöhen – im Unterschied zu westlichen Sprachen – den Worten unterschiedliche Bedeutungen geben. Stand der Technik sowohl in der Spracherkennung als auch in der Sprachsynthese ist, dass im Wesentlichen datengetriebene und nicht regelbasierte Ansätze verfolgt werden: Die Forscher und Entwickler setzen also auf Sprachdatenbanken.
Darum konzentrierte sich die deutsch-chinesische Zusammenarbeit zunächst auf die Sammlung von Sprachproben, beginnend mit dem Anwendungsbereich Telefonie. Dazu wurden in der Arbeitsgruppe von Prof. Li Zhi-Zhu an der Shanghai Jiao-Tong University (SJTU) mithilfe eines Telefonservers 10 000 Sprecher aus allen Provinzen Chinas über Telefon aufgenommen. Alle Aufnahmen wurden von Studenten in mühsamer Kleinarbeit abgehört und in Lautschrift notiert, wobei sprach- und sprecherabhängige Besonderheiten wie unübliches Vokabular oder Hustgeräusche herausgefiltert wurden. Die so entstandene Sprachdatenbank wird derzeit von einer anderen Arbeitsgruppe um Dr. Tao Jianhua an der Tsinghua University in Peking benutzt, um die von Siemens bereitgestellten Kern-Algorithmen für die Spracherkennung und -synthese auf die Anforderungen des Chinesischen anzupassen und zu optimieren. "Wichtig dabei ist", sagt Herbert Tropf, "dass die resultierenden Algorithmen kompatibel zu den Hardware-Plattformen in den entsprechenden Produkten sind, also etwa den Mobiltelefonen, und dass sie nur wenig Speicherplatz beanspruchen."
Die Sprachdatenbank für Mandarin ist bereits abgeschlossen, und noch 2001 sollen auch die entsprechenden Spracherkennungsalgorithmen zur Verfügung stehen. Derzeit sammelt die SJTU weitere Sprachdaten von etwa 2000 Chinesen auf Kantonesisch, das in Südchina – insbesondere in Kanton und Hongkong – gesprochen wird. Unerlässlich für erfolgreiche Produkte sind auch phonetische Lexika, das heißt Wörterbücher mit Lautschrift, für Mandarin und Kantonesisch. "Außerdem brauchen wir verbesserte phonetische Modelle und geräuschstabilere Algorithmen für die Spracherkennung", sagt Herbert Tropf. "Denn sonst wäre bei einem hohen Geräuschpegel im Hintergrund, wie etwa Straßenlärm, die Erkennung nicht optimal und die Fehlerrate zu hoch."
Wie aufwändig die Sprachanalyse des Chinesischen sein kann, zeigt die Silbe "ma", die in Abhängigkeit der gesprochenen Tonmelodie mehrere Bedeutungen hat
Die deutsch-chinesische Kooperation erfolgt in enger persönlicher Zusammenarbeit der etwa 20 beteiligten Wissenschaftler bei Siemens und den beiden chinesischen Universitäten: per e-Mail, am Telefon und natürlich auch "face-to-face". So ist Herbert Tropf ein- bis zweimal im Jahr in China, ein Doktorand von der Tsinghua University verbrachte ein Forschungsjahr in Deutschland, und zum Erfahrungsaustausch finden Workshops in Shanghai, Peking oder München statt.
Doch für die automatische Sprachverarbeitung nutzt Tropf nicht nur die in Asien vorhandene Forschungskompetenz. Bereits 1996 hat Siemens begonnen, in mehreren EU-geförderten Projekten mit Partnern wie Philips, Ericsson, Nokia oder IBM Sprachdatenbanken aufzubauen. Das Ziel auch hier: die Erfassung aller Sprachen und Dialekte in Westeuropa sowie der wichtigsten osteuropäischen Sprachen. Inzwischen wurden die Aktivitäten auf andere Regionen wie Arabien oder Fernost ausgeweitet.
"Am Ende all dieser Kooperationen wird ein internationales Kompetenz-Netzwerk für die automatische Sprachverarbeitung stehen", prophezeit der Siemens-Experte und wagt einen weiteren Blick in die Zukunft: "Mittel- bis langfristig wird sich der Forschungsschwerpunkt von der Spracherkennung und -synthese dann auch auf die automatische Übersetzung gesprochener Sprache verlagern."
Sylvia Trage