Go to content

SIEMENS

Research & Development
Technology Press and Innovation Communications

Dr. Ulrich Eberl
Herr Dr. Ulrich Eberl
  • Wittelsbacherplatz 2
  • 80333 Munich
  • Germany
Dr. Ulrich Eberl
Herr Florian Martini
  • Wittelsbacherplatz 2
  • 80333 Munich
  • Germany
Bilder Video

Fliegendes Auge: Der „Quadcopter“ ist eine Plattform, die mithilfe von Videokameras,
Lasern und optischen Sensoren 3D-Karten von komplexen Umgebungen erstellt. Das Gerät könnte etwa bei Gebäudeplanungen helfen.

Wege zur Selbstständigkeit: Mittels Laser tastet der autonome Gabelstapler seine Umgebung ab.

Der Singh-Roboter orientiert sich über 3D-Sensoren.

Der Singh-Roboter orientiert sich über 3D-Sensoren.

Maschinenauge, sei wachsam

Es gibt wenige Forschungsfelder, die so komplex sind, wie das der Künstlichen Intelligenz. Eines der härtesten Probleme für die Forscher und Entwickler auf diesem Gebiet ist dabei das maschinelle Sehen. Siemens entwickelt Videosysteme, die eigenständig die sichtbare Welt interpretieren.

Image
Image
Image
Schritt für Schritt bringen Forscher an Universitäten und in der Industrie künstlichen Systemen das Sehen bei.
Image
Image
Image Wege zur Selbstständigkeit: Mittels Laser tastet der autonome Gabelstapler seine Umgebung ab. Der Singh-Roboter orientiert sich über 3D-Sensoren.
"Roboter sollen sich ins Umfeld der Menschen einfügen, mit ihnen kommunizieren und durch sie lernen."

Ein eigenartiges Fluggerät surrt durch die Forschungslabore von Siemens Corporate Research in Princeton. Ein quadratisches Drahtgestell, in dessen Mitte Streben einen schwarzen Motorblock mit vier Hubschrauberrotoren halten: Quadcopter nennt sich das Flugobjekt. Mit Lasern tastet es Wände, Fenster, Schreibtische und Regale ab. Optische Sensoren und Videokameras registrieren jedes Detail. Der Quadcopter sortiert die Datenströme nach Farben, Kontrasten und Kanten. Er fliegt auf zuvor festgelegten Bahnen durch die Luft, bereit, Hindernisse zu identifizieren und ihnen auszuweichen. Aus den gesammelten Daten erstellt er ein präzises 3D-Modell seiner Umwelt.

Das fliegende Auge entwickelt ein Team um den Computerwissenschaftler Yakup Genc aus Princeton und den Robotiker Nicholas Roy vom Massachusetts Institute of Technology in Boston. Mit dem „Fly & Inspect“-Projekt sollen digitale 3D-Modelle komplexer Innenräume geschaffen werden, etwa von Gepäckabfertigungs-, Fabrik- oder Veranstaltungshallen. Diese Modelle können dann für die Gebäudeplanung und –inspektion verwendet werden. Das Ziel der Forscher ist nun, das Fluggerät soweit zu entwickeln, dass es routinemäßig eingesetzt werden kann. Mit dem kleinen Helikopter lassen sich auch schwer zugängliche Orte kontrollieren, um etwa Beschädigungen von Windkraftanlagen oder Strommasten zu entdecken. „Noch wird der Quadcopter ferngesteuert, aber später soll er mithilfe seiner optischen Sensoren eigenständig innerhalb vorgegebener Umgebungen fliegen – und lernen, besondere Merkmale wie etwa Risse automatisch zu erkennen“, erklärt Genc.

Für künstliche Intelligenz ist maschinelles Sehen nach über fünfzig Jahren Forschung weiterhin die größte Herausforderung. Ein IBM-Supercomputer namens „Watson“ hat bei Amerikas populärem Fernsehquiz „Jeopardy“ im Februar 2011 zwar die bislang erfolgreichsten Quizkandidaten aus Fleisch und Blut geschlagen. Doch selbst diese erstaunliche Leistung basierte „nur“ auf einer ausgeklügelten Auswertung von Informationen aus Datenbanken und Suchen im Internet. In der realen Welt sind Rechner bislang sehr unbeholfen: Während ein Kleinkind problemlos eine Antenne von einem Baum unterscheidet, wühlten sich Rechner bislang mehr schlecht als recht durch die aus Kameraaugen strömenden Datenfluten. Doch Schritt für Schritt bringen Forschergruppen an Universitäten und in der Industrie künstlichen Systemen nun das Sehen bei.

Auch bei Siemens. An seinen Forschungs- und Entwicklungsstandorten in Princeton, New Jersey, im österreichischen Graz und in München entwickelt Siemens Systeme, die Satellitenbilder auf komplexe Muster wie Fabrikanlagen, Gebäude, Straßen und andere Infrastruktur hin untersuchen, auf Röntgenbildern von Gepäck und Containern nach verdächtigen Gegenständen fahnden, im Verkehr Straßenschilder lesen, Menschenmengen überwachen oder schwer zugängliche Orte kartieren und inspizieren. Das Zauberwort für diese Aufgaben heißt: Lernen.

Wie leisten die Systeme das? Sie werden vor dem Einsatz trainiert – „gestütztes Lernen“ heißt der Fachbegriff. Ein dreijähriges Kind hat bereits eine Unzahl von Objekten gesehen, die es ihm erlauben, nicht nur Antennen und Bäume zu unterscheiden. Genauso füttern Computerwissenschaftler Programme mit Hunderttausenden von Objektbildern, aus denen intelligente Algorithmen charakteristische Merkmale ableiten.

Beispielsweise von Menschen: Sie haben ovale Gesichter, Arme und Beine, meist Haare, und auf der Straße gehen sie aufrecht. Ein Tisch dagegen ist eine horizontale Platte mit Stützen, auf der sich Dinge ablegen lassen. Indem Rechner diese Charakteristika herausfiltern, entsteht eine digitale Repräsentation. So etwas ermöglicht unter anderem modernen Fahrerassistenzsystemen, Verkehrsschilder automatisch zu erkennen.

Unterscheiden lernen. Doch oft sind die gewünschten Aufgaben komplexer und es hilft nicht, nur zu wissen, wie ein Mensch aussieht. Wenn die Videoanalyse einen Kopf erkennt, aber keinen Rumpf, Arme oder Beine sieht, muss das System trotzdem zu der Schlussfolgerung kommen, einen Menschen vor sich zu haben. Das gelingt ihm, wenn es weiß, dass der Rest des Körpers nicht sichtbar ist, weil eine andere Person oder ein Objekt ihn verdecken.

„Künftig sollte es auch möglich sein, noch komplexere Muster in archiviertem Videomaterial zu erkennen“, erklärt der Computerwissenschaftler Vinay Shet in Princeton. Ein Beispiel ist die Aufgabe, eine Person über mehrere Kameras durch eine große Anlage – etwa einen Flughafen – zu verfolgen. Shet vergleicht das mit der Suche nach einer „visuellen Grammatik“: „Wie ein Satz haben auch Bild- und Videodaten eine formalisierbare Struktur, die sich als visuelle Grammatik deuten lässt“. Dabei werden Bilddaten Eigenschaften zugeschrieben. Deren Kombination hilft dann dem Programm, zu entscheiden, ob in verschiedenen Bildsequenzen dieselbe Person zu sehen ist.

Mit der Suche nach solchen Mustern will Siemens in Zukunft auch bei Container- und Gepäckkontrollen unterstützen. So kann die Technologie beispielsweise helfen, die komplexe Anordnung einer Bombe mit Zünder, Kabeln, einem Handy oder Wecker und Sprengstoff zu erkennen. Das ist eine Aufgabe, die auf Flughäfen bislang noch von Menschen durchgeführt wird.

Die automatischen Erkennungsalgorithmen funktionieren bereits sehr gut, aber nicht perfekt. Daher zielt ein innovativer Ansatz eines Teams um den EEG(Elektroenzephalogramm)-Experten Paul Sajda von der New Yorker Columbia University darauf, die Geschwindigkeit von Maschinen mit der Urteilssicherheit von Menschen zu vereinen. Finanziert wurde das Projekt teilweise vom amerikanischen Verteidigungsministerium. Beteiligt waren auch Experten von Siemens in Princeton. Der treibende Faktor war, eine Technologie zu entwickeln, mit deren Hilfe man schnell sehr große Satellitenbilder auf bestimmte Objekte hin durchsuchen kann, wie etwa Industrieanlagen oder Hubschrauberlandeplätze.

Zuerst sortiert die von Siemens entwickelte Bildanalyse-Software all jene Bereiche aus, die mit hoher Wahrscheinlichkeit keines der gesuchten Objekte enthalten – etwa homogene Flächen ohne hervorstechende Bildeigenschaften wie Wüsten, dichte Wälder oder Steppen. Dann werden die verbleibenden interessanten Bildteile in kleine quadratische Flächen zerlegt und einem menschlichen Bildanalysten gezeigt, der mit einem EEG verbunden ist. Dabei ist die Bildfolge mit fünf bis zehn Bildern pro Sekunde schneller, als ein Mensch sie bewusst analysieren kann. Das EEG-System jedoch kann lernen, ein Hirnsignal zu bemerken, das auf einen interessanten Bildbereich hinweist. Dann können dem Analysten diese Bilder nochmals langsamer vorgelegt werden – und er kann bewusst entscheiden, ob sie relevant sind oder nicht. „Mit dieser Methode haben wir die Analysegeschwindigkeit um das Vierfache erhöht“, sagt Claus Bahlmann, Siemens-Forscher in Princeton.

Autonome Navigatoren. Ebenso wichtig wie die Bildanalyse ist für Roboter die optische Navigation durch den Raum – und die Fähigkeit, bestimmte Aufgaben zu erledigen. Das leistet ein bereits am Markt erhältliches Steuersystem, das „Autonomous Navigation System“. Siemens-Ingenieure haben es in München und Stuttgart für Nutzfahrzeuge entwickelt: schon 1999 für Reinigungsroboter, seit 2007 für Gabelstapler. Das Fahrzeug erlernt seine Einsatzstrecke, indem es sie – geführt von einem Menschen – abfährt. Dabei speichert es automatisch Merkmale in den oberen Raumbereichen, die sich in der Regel nur selten verändern. Dies erlaubt ihm später, dieselbe Route eigenständig zu fahren. „Dieses System verfügt über so viel Objekterkennung, wie für eine Anwendung nötig ist. So erkennt es in Lagerhallen beispielsweise Paletten oder Gitterboxen“, erklärt Dr. Gisbert Lawitzky, Roboterexperte bei Siemens Corporate Technology in München. Derzeit transportieren die Geräte bei Firmen wie Daimler vor allem Paletten durch die Hallen und zu Laderampen. „Künftig sollen Fahrzeuge, je nach Aufgabe, auch andere Objekte erfassen oder wissen, in welchem Raum sie sich befinden.“ Hierfür gibt es eine Vielzahl von Anwendungen, die von Roboterführern in Museen oder Einkaufszentren bis zu Sicherheitseinsätzen reichen.

Roboter, die Karten lesen. An einem mobilen Roboter arbeitet auch der Wissenschaftler Maneesh Singh in Prince ton. Er hat einen im Handel erhältlichen Roboter – der an einen rollenden Schnellkochtopf mit Rädern erinnert – mit einem von Microsoft hergestellten Kamerasystem namens „Kinect“ ausgerüstet (siehe Artikel „Spielekonsole im Operationssaal“). Diese Kamera, ursprünglich für die Spielekonsole Xbox 360 entwickelt, ist mit einem 3D-Sensor ausgestattet. Der Roboter kann damit nicht nur Hindernissen ausweichen, sondern auch in Echtzeit ein Modell des Gebäudes entwickeln und so seinen Standort heraus finden. „Genau wie Menschen wird sich dieser Roboter am Eingang eines Gebäudes einen Übersichtsplan ansehen und ihn verstehen. So kann er eigenständig navigieren. Zugleich schafft er sich eine visuelle Erinnerung an die Räume, die er durchquert hat, und kann das später nutzen.“ Singh hat aber noch weitere Pläne. Der Roboter soll sich nahtlos in das menschliche Umfeld einfügen, Menschen und ihre Aktivitäten erkennen, mit ihnen kommunizieren und durch die Interaktion mit Menschen lernen. „Schon in naher Zukunft“, sagt er, „werden wir diese Roboter wie unsere Kinder in vielen Aufgaben unterrichten können – etwa indem wir auf Objekte deuten oder mit den Robotern sprechen.“

Innovative Forschungsprojekte wie dieser Roboterassistent oder das fliegende Quadcopterauge sind derzeit noch in der Erkundungsphase. Sie werden in den Forschungs- und Entwicklungsabteilungen von Siemens in der Regel für einige Zeit getestet, ehe dann mit den geschäftsführenden Einheiten entschieden wird, ob sich daraus ein Produkt entwickeln lässt. Das gibt Siemens-Ingenieuren eine gewisse Freiheit, immer wieder Neues auszuprobieren. Zu dieser Kategorie gehört auch ein Projekt namens „Outlier“, das die Idee des Lernens radikal weiterdenkt.

Was ist normal, was nicht? Während die meisten der lernfähigen Algorithmen vor dem eigentlichen Einsatz an Bildern oder Videosequenzen geschult werden, lernt dieses Analyseprogramm während des Betriebs – vorerst allerdings nur im Labor. Es beobachtet über längere Zeit einen erfassten Bildausschnitt, etwa einen belebten öffentlichen Platz oder eine Straßenkreuzung, und ermittelt daraus statistisch, was „normal“ ist. Tritt ein ungewöhnliches Ereignis ein – stellt sich etwa ein Fahrzeug auf der Straße quer – würde das System dies an das Aufsichtspersonal melden. Das wiederum kann dann Feedback geben, ob Vorfälle dieser Art relevant sind oder nicht. Und das Programm würde sich danach richten.

„Das ist ein Paradigmenwechsel“, sagt der an „Outlier“ arbeitende Ingenieur Josef Birchbauer am Siemens-Standort Graz. Denn das Programm kann sich Bedingungen stets neu anpassen. Das bietet sich vor allem in jenen Fällen an, in denen sich von vornherein nicht sagen lässt, welche ungewöhnlichen Ereignisse an einem Flughafen oder auch am Times Square in New York für eine Überwachungskamera relevant sein könnten. „Ich halte es für wahrscheinlich“, so Birchbauer, „dass beide Technologien – gestütztes Lernen anhand von Beispielbildern und statistisches Echtzeitlernen – künftig miteinander kombiniert werden, um bei Sicherheitsanwendungen möglichst effizient zu funktionieren.“

Hubertus Breuer