Bildverarbeitung – Trends
Maschinen lernen sehen
Systeme der automatischen Bildverarbeitung dringen unaufhaltsam in viele Anwendungsgebiete vor – ob Videoüberwachung oder industrielle Fertigung, Fahrerassistenzsysteme im Auto oder neue Einsatzgebiete in der Medizintechnik. Treiber dieser Entwicklung ist die Fähigkeit der Systeme, die Bilddaten auch zu interpretieren und Informationen von einer großen Anzahl von Sensoren sinnvoll zusammenzufügen.
Die Verfahren zur Bilderkennung von Dr. Visvanathan Ramesh und anderen Siemens-Experten sind vielseitig anwendbar: zur Gesichtsidentifizierung (links oben), zur Verkehrsbeobachtung (rechts daneben), zur Überprüfung des Bahnsteig-Sicherheitsstreifens (Mitte links) sowie von Turbinenschaufeln (Mitte rechts) und zur Verkehrszeichenerkennung (unten rechts)
Maschinen sind dabei, sehen zu lernen. Sei es mit Hilfe von Laserlicht, um automatischen Hafenkränen zu helfen, 80-t-Container so präzise zu stapeln wie Erbsendosen in einem Supermarkt ( 3D-Objekterkennung). Oder mit Radar- und Funkwellen, um Autos in sicherem Abstand hintereinander fahren zu lassen. Oder mit sichtbarem Licht, um in Postsortieranlagen blitzschnell Adressen zu lesen ( Automatische Lesegeräte). oder um mit einer 3D-Bildverarbeitung Hörgeräte perfekt an ihren Träger anzupassen. In diesen und vielen anderen Einsatzbereichen wird eines deutlich: Das Niveau des Maschinensehens kommt echter Intelligenz schon recht nahe. "Schon bald wird die Grenze zwischen Sensortechnik und logischem Denken verschwimmen", prognostiziert Dr. Visvanathan Ramesh, Leiter der Abteilung für Echtzeit-Bilderkennung und -Modellierung bei Siemens Corporate Research (SCR) in Princeton im US-Bundesstaat New Jersey. Dieser Trend zeigt sich in keinem Gebiet deutlicher als bei der Überwachungstechnologie ( Videoüberwachung). Hier können die Kameras bereits selbstständig herrenlose Gepäckstücke in Flughäfen entdecken oder Menschen, die in U-Bahnhöfen gefährlich nahe an die Gleise kommen oder Autos, die in Tunnels in die falsche Richtung fahren. Hatten derartige Überwachungssysteme früher häufig falschen Alarm ausgelöst, so wird heute oft eine Erkennungsrate von über 95 % erreicht – bei sehr niedrigen Fehlalarm-Raten. "Vor drei oder vier Jahren gab es mehr Fehlalarme als echte", erklärt Dr. Imad Zoghlami, Spezialist für Überwachungstechnologie bei SCR. "Heute hingegen lösen unsere Verkehrsüberwachungssysteme an Orten wie dem Aberdeen-Tunnel in Hongkong oder dem Giswil-Tunnel in der Schweiz weniger als einen Fehlalarm pro Woche aus."
Während sich frühere Geräte durch Reflexionen, Verdeckungen oder starke Kontraste irritieren ließen, können neue Systeme mit intelligenteren Algorithmen die Bewegung von Objekten kontinuierlich verfolgen. So kann sich das Sicherheitspersonal ganz auf die Entscheidung konzentrieren, ob die Ereignisse sofortige Maßnahmen erfordern oder nicht. Das ist deshalb so wichtig, weil zwar die Zahl der Kameras zunimmt – allein in der Londoner U-Bahn sind es 6 000 ( Fakten und Prognosen) – aber nicht die Fähigkeit des Menschen, Bilder auf einem Monitor zu verfolgen. Nach 22 Minuten Starren auf Bildschirme, so hat eine Studie ergeben, "übersehen die Beobachter schon 95 % aller Aktivitäten in einer Szene", sagt Zoghlami.
Neben ausgeklügelten Algorithmen ist vor allem eine hohe Rechenleistung nötig, um derartige Herausforderungen zu bewältigen. Doch dies stellt einen Engpass dar, solange sich, wie heute üblich, vier bis acht Kameras einen Prozessor teilen. Das ändert sich allerdings gerade, unter anderem, weil die Preise für so genannte eingebettete Intelligenz immer weiter sinken. Die ersten Kameras mit speziellen digitalen Signalprozessoren sind bereits auf dem Markt.
Dazu meint Emma Brassington, Leiterin der Abteilung Bildverarbeitung bei Roke Manor Research (RMR), einer Siemens-Tochter im englischen Romsey (Automatische Lesegeräte): "Der Bedarf an Lösungen, mit denen die riesigen Datenmengen aus Kameras verarbeitet werden können, steigt ständig. Die Antwort kann nicht heißen, dass man dafür immer mehr Menschen einsetzt, sondern die Kameras müssen deutlich intelligenter werden."
Im Netzwerk entscheiden. Eingebaute Intelligenz hat viele Vorteile. So werden Kameras mit eigenen Prozessoren selbstständig ihren Sichtbereich überwachen, unwichtige Daten herausfiltern und nur die relevanten Informationen an eine Zentrale übertragen. Zudem lassen sie sich auch störungsfrei drahtlos vernetzen – eine Aufgabe, an deren Lösung Dr. Justinian Rosca, Spezialist für Signalverarbeitung bei SCR, arbeitet: "Je mehr Daten jede einzelne Kamera selbst verarbeiten kann, desto weniger Informationen muss sie übertragen – und desto mehr Bandbreite bleibt für die wirklich wichtigen Signale".
Dabei denkt Rosca an einen Informationsaustausch von Zehntausenden kleiner, drahtloser Kameras, die ununterbrochen nach Anzeichen von Gefahren Ausschau halten, jede Veränderung registrieren und nur noch eine Art von Notizen – "Metadaten" – austauschen und vergleichen (siehe Pictures of the Future, Frühjahr 2003, Intelligente Kameras). "Am Ende werden das dann Kameras sein, die schriftliche Berichte abliefern", erklärt Rosca. "Dadurch wird es möglich, Tausende von Ereignissen simultan zu beobachten. Beispielsweise können die Kameras dann charakteristische Eigenschaften von Objekten erkennen und sie untereinander austauschen, um diese Objekte sozusagen von Kamera zu Kamera weiterzureichen und ihre Bewegung zu verfolgen."
Um den künftigen Bedarf für dezentrale Netzwerke intelligenter Kameras decken zu können, hat Siemens Corporate Technology (CT) ein global arbeitendes Team für die Videoanalyse aufgestellt, in dem Experten von SCR sowie aus München und Indien zusammenarbeiten. "Durch die Vernetzung der Ressourcen kann SCR jetzt einen ganzheitlichen Ansatz für die Entwicklung solcher Systeme verfolgen", sagt der Leiter von SCR, Paul Camuti.
Bevor bildverarbeitende Systeme aber als Grundlage für Entscheidungen dienen, müssen sie Bildinformationen so auswerten können, dass sie auch mit Unsicherheits- und Störfaktoren wie Überdeckungen, Feuchtigkeit, Reflexionen und Schatten umgehen können. Noch wichtiger: Sie müssen ihre eigene Zuverlässigkeit und die Aussagekraft ihrer Meldungen bewerten können.
Für diese Aufgabe hat SCR statistische Modellierungs- und Analyse-Tools entwickelt, die die Systeme zur Selbstdiagnose befähigen. "Der Grund dafür ist, dass die Systeme selbst und auch ihre Arbeitsumgebungen immer komplexer werden", erklärt Ramesh. "Um die Systemleistung messen zu können, haben wir ein ganzheitliches Modell entwickelt, mit dem wir die Leistungsgrenzen der Einzelkomponenten und des Gesamtsystems in Echtzeit darstellen können. Letztlich läuft das darauf hinaus, dass wir einer Maschine eine Art Selbsterkenntnis darüber vermitteln, wie gut sie ihre Aufgaben lösen kann."
Dafür hat Dr. Dorin Comaniciu ( Innovatoren – Bierbrauer), der Leiter der SCR-Abteilung für integrierte Datensysteme, ein mathematisches Verfahren – "Robust Information Fusion" – entwickelt und patentiert, das fragwürdige Informationen von Sensoren erkennt und ausfiltert, indem es Daten aus unterschiedlichsten Quellen analysiert. Das Ergebnis ist eine Art Daten-Demokratie, die es ermöglicht, Bits und Bytes – etwa aus den verschiedenen Sensoren eines Autos – nahtlos zu einem einzigen Datenstrom zusammenzufassen. "Stark vereinfacht ausgedrückt ist diese robuste Datenfusion ein statistisches Verfahren, mit dem Einzeldaten kombiniert und gewichtet werden, um ein optimales Ergebnis zu erzielen", verdeutlicht Comaniciu.
Menschliche Wahrnehmung. Ein weiterer Forschungsschwerpunkt zur Verbesserung der Zuverlässigkeit von Bildinformationen ist das statistische Lernen. Zur leichteren und schnelleren Objektverfolgung müssen Kameras wissen, wie Bild- und Videodaten dem Objekt zugeordnet werden können, also den Menschen als Menschen erkennen und ein Fahrzeug als Fahrzeug. Dafür ist es notwendig, dass die Kamera die gemeinsamen Eigenschaften der verschiedenen Objekte kennt. "Um das zu erreichen, müssen wir ein umfassendes statistisches Modell entwickeln, das die meisten beobachteten Variationen der Daten erklären kann", erklärt Dr. Ying Zhu, Spezialist für maschinelles Lernen bei SCR.
Eine reale Umgebung im Modell darzustellen, ist allerdings nicht immer einfach. Zwar kann die Technik beispielsweise Verkehrsschilder in 90 bis 95 % der Fälle erfolgreich erkennen. "Aber schlechtes Wetter und unzurei- chende Beleuchtung verwirren die Kamerasysteme immer noch", sagt Zhu. "Die Lösung dafür ist die Zusammenführung der Bildinformationen mit Daten anderer Sensoren."
Laut einer Prognose der Unternehmensberatung Frost & Sullivan ist die Verkehrszeichen-Erkennung aber nur der Anfang: Kameras werden sich zu der am schnellsten wachsenden Sensortechnologie im Automobilbereich entwickeln (Fakten und Prognosen). Als Bestandteil von Fahrerassistenzsystemen (siehe Pictures of the Future, Herbst 2005, Fahrerassistenz) entwickelt Siemens unter anderem kamerabasierte Spurhalte- und Alarmsysteme, Einschlafwarner, Systeme zur gezielten Auslösung von Airbags sowie Lösungen zur Fußgängererkennung und zur Front- und Hecküberwachung.
Intelligente Sicherheits-Kameras (unten): Dank ausgeklügelter Software erkennen sie selbstständig, dass ein Gepäckstück abgestellt (links oben) und herrenlos wird (rechts oben). Auch Nutzungsänderungen auf einem Parkplatz (Mitte) können sie feststellen – sie konzentrieren sich dabei nur auf das Wesentliche und lassen etwa Variationen durch veränderte Lichtverhältnisse unberücksichtigt
Radar-, Infrarot-, Ultraschall- und drahtlose Kommunikationssysteme werden zusätzliche Sensorinformationen liefern, um in der Nähe befindliche Fahrzeuge zu erkennen und mit ihnen in Verbindung zu treten. Auf diese Weise können Unfälle vermieden werden, die auf tote Winkel, plötzliche Bremsmanöver und schlechte Sichtverhältnisse zurückzuführen sind.
"Das hohe prognostizierte Wachstum für die Sensortechnologien im Auto ist vor allem auf die Entwicklung der Computertechnik und das zunehmende Sicherheitsbewusstsein zurückzuführen", meint Camuti. "Einige Lösungen sind schon jetzt auf dem Markt. Irgendwann werden sie als komplette Pakete angeboten, in denen die Daten aller Sensoren logisch zusammengeführt werden und die Grundlage für eine autonome Steuerung des Autos bilden."
Auch wenn dieses Szenario noch 20 oder mehr Jahre vor uns liegt, wird es möglicherweise schon bald autonom agierende Fahrzeuge im Militärbereich geben. Ein entsprechendes Fahrzeug haben beispielsweise die RMR-Ingenieure entwickelt: Es bewegt sich dank Kameras vollkommen selbstständig und ohne GPS im Gelände und in Gebäuden. Dabei umgeht es Hindernisse und sendet gleichzeitig drahtlos Videobilder seiner Umgebung an weit entfernte Empfänger. Die gleiche Technik treibt auch die Entwicklung von unbemannten Flugzeugen, Polizeifahrzeugen und von Inspektionssystemen für Landwirtschaft oder Hochspannungsleitungen voran.
Die Umwelt erkunden. Die Basis für die autonomen Systeme von RMR und SCR bilden komplexe Technologien wie etwa "3D Structure from Motion", eine Technologie ähnlich der Fähigkeit des Menschen, neue Umgebungen wahrzunehmen. "Unsere Forschungen haben gezeigt, dass sich Maschinen auf diese Weise ein Modell ihrer Umwelt aufbauen können, während sie sich in ihr bewegen", erklärt Brassington. "Unser Ansatz besteht darin, dass wir den Maschinen nicht mehr unzählige Fakten über die reale Umwelt beibringen, sondern dass sie die komplexe Umwelt selbst erkunden, aus den eigenen Bildern lernen und dann entscheiden. In zehn oder fünfzehn Jahren werden wir schließlich Maschinen haben, die selbst Entscheidungen treffen und sich an neue Situationen anpassen."
Für viele Anwendungen muss es aber gar nicht die freie Natur sein. Einfachere, besser vorhersagbare Umgebungen – wie Fabriken oder Lagerhallen – werden Maschinen schon bald modellieren können. "Wir wollen den Maschinen die Fähigkeit geben, sich Modelle zu erschaffen, indem sie sich einfach Dinge ansehen", sagt Dr. Yakup Genc, der Leiter des SCR-Programms für 3D-Sehen und Augmented Reality.
Egal, ob der Roboter versucht, ein neues oder ein bereits bekanntes Objekt zu identifizieren: Dreidimensionales Sehen ist jedem zweidimensionalen System deutlich überlegen. Eine von einem Team bei CT in München entwickelte 3D-Technologie basiert auf der Projektion von Strichcode-ähnlichen Linien auf Oberflächen, deren Form dann die Kameras mit einer Auflösung von 100 µm erfassen ( 3D-Objekterkennung). Im industriellen Bereich wird dieses System z.B. eingesetzt, um Turbinenschaufeln in Kraftwerken zu inspizieren.
Man erhält dabei ein vollständiges, digitales und hochaufgelöstes Modell jeder einzelnen Schaufel, das alle Defekte wie Abrieb oder Verdrehungen perfekt wiedergibt. Damit kann man etwa für jede Schaufel eine Datenbank aufbauen und den Einfluss unterschiedlicher Einsatzbedingungen auf die Schaufeln analysieren. Dieses System braucht mit einem portablen Scanner fünf Minuten pro Schaufel – es ist damit schnell und vor allem deutlich genauer als das menschliche Auge und es bietet ein standardisiertes Verfahren für die Datenerfassung.
Sichere Interpretationen. Zwar ist es ein langer Weg von einer Turbinenschaufel bis zum menschlichen Herzen, aber beide haben eines gemeinsam: Sie sind Zielobjekte des von Ramesh, Comaniciu und ihren Teams verfolgten gemeinschaftlichen Ansatzes für die Bildverarbeitung. Jedes System soll beurteilen können, wie genau es seine Umgebung interpretiert, während Unsicherheiten in einem kohärenten Prozess zusammengeführt und analysiert werden, um eine noch präzisere Interpretation zu ermöglichen. Dieses Konzept wird bereits für Sicherheitsaufgaben und die medizinische Bildgebung genutzt.
Die Entwicklung solcher Systeme wird immer stärker durch Datenbank-gestützte Techniken beschleunigt, die mit Kommentaren versehene Video- oder Bilddaten für automatisierte Algorithmen nutzen. Ein Beispiel für einen solchen Algorithmus ist "Auto EF", eine Erfindung von Dorin Comaniciu und seinem Team. Das Programm kam vor kurzem auf den Markt.
Dieser Algorithmus nutzt ein konventionelles Ultraschallbild eines Herzens, um automatisch dessen Ejektionsfraktion zu messen. Das ist der Anteil des vom Herzen bei einer Kontraktion ausgeworfenen Blutes im Verhältnis zum Gesamtblutvolumen der Herzkammer. "Dazu braucht ein Experte mehrere Minuten, während die Software die gleiche Aufgabe in wenigen Sekunden lösen kann", sagt Comaniciu ( Innovatoren – Comaniciu).
Synergien für die Zukunft. Die Datenbank zu entwickeln, die es dem System erlaubt, den Umriss eines schlagenden Herzens in Echtzeit aus einem unscharfen Ultraschallbild abzuleiten, war alles andere als eine leichte Aufgabe. Doch solche Software-Werkzeuge können die Medizintechnik erheblich voranbringen und die Arbeitsabläufe bei bildgebenden Verfahren in Krankenhäusern deutlich beschleunigen.
Irgendwann werden derartige Systeme der wissensbasierten Medizin in der Lage sein, umfassende Beurteilungen ganzer Organe mit all ihren Funktionen und Krankheiten aus individueller und demographischer Sicht durchzuführen, bis hinunter zur genetischen und molekularen Ebene.
Damit nicht genug: Durch den umfassenden Ansatz der automatisierten Bildverarbeitung entstehen schon jetzt Synergieeffekte zwischen ganz unterschiedlichen Bereichen. Ein Beispiel ist eine Lösung von Siemens Medical Solutions, mit deren Hilfe die Bilder von Kopf, Unterleib und Oberschenkelknochen eines Fötus – wichtige Parameter für die Beurteilung eines Schwangerschaftsverlaufs – von Woche zu Woche automatisch miteinander verglichen werden können.
Dank modularer Software-Architektur hilft die gleiche Basis-Technologie – die so genannte "Change Detection" –, mikroskopisch kleine Risse in Turbinenschaufeln ebenso zu erkennen wie Nutzungsänderungen auf Parkplätzen oder minütliche Veränderungen der Bewegungsmuster von Fahrzeugen und Fußgängern.
Dies alles ist aber nur ein kleiner Vorgeschmack auf das immer größer werdende Bild, das sich intelligente Kameras künftig von der Welt machen werden.
Arthur F. Pease