Anthony Dixon, Entwickler bei Roke Manor Research, trainiert eine Kamera darauf, verschiedene Arten von Bewegungen zu erkennen und zu verfolgen
Ein riesiger Parkplatz im abendlichen Dämmerlicht. Eine der vielen Kameras auf dem Dach des Einkaufszentrums fokussiert automatisch auf einen Mann, der von Auto zu Auto geht. Will er einen Wagen stehlen? In einem Tunnel erwacht eine andere Kamera zum Leben, sobald sie einen kurzen Lichtblitz und bremsende Fahrzeuge erspäht. War das ein Unfall? Am Flughafen-Abfertigungsschalter zoomt eine dritte Kamera aufs Gesicht eines Passagiers und alarmiert das Personal, dass diese Person mit einer Wahrscheinlichkeit von 90 % polizeilich gesucht wird.
Willkommen in der Welt der intelligenten Kameras! Sie sind keine Utopie. Mitunter begegnet man bereits Prototypen im Einsatz, doch die meisten sind noch in der Entwicklung – Geräte, die meilenweit entfernt sind von den konventionellen stupiden Überwachungskameras, die nur das aufzeichnen, was ihnen vor die Linse kommt. Intelligente Kameras sind dagegen so programmiert, dass sie selbstständig nach bestimmten Ereignisklassen suchen – etwa nach Autos, die in einem Tunnel stehen bleiben. Das Personal wird nur dann benachrichtigt, wenn die Kamera etwas Ungewöhnliches bemerkt.
Tausend elektronische Augen. Einsetzen lassen sich solche Kameras fast universell: von der Überwachung von Häusern und Gärten, um Eindringlinge aufzuspüren, bis zur selbstständigen Analyse von Ereignissen. Künftig sollen sie erkennen, wenn in der U-Bahn ein Fahrgast auf die Gleise stürzt oder ein Raub verübt wird. Bereits entwickelt worden sind Kameras, die Nummernschilder identifizieren sowie ein System, das Sportveranstaltungen – ob Tennis oder Fußball – beobachtet und so schnell ist, dass es sogar den Flug der Bälle voraussagen kann (siehe Insert). Auch für die Erkennung winziger Fehler lassen sich solche Geräte künftig einsetzen, und das bei Produkten, die schnell auf einem Fließband vorbeihuschen.
Siemens entwickelt verschiedene Verfahren der intelligenten Bildverarbeitung: Das System von Siemens Corporate Research (links) kann Autos in einem Tunnel erfassen und erkennen, wenn es Probleme gibt. Auf Anomalien wie verboten abbiegende Fahrzeuge reagiert die Video Motion Anomaly Detection von Roke Manor Research (rechts)
"All diese Systeme können Routine-Ereignisse ausblenden und sich auf das konzentrieren, was wichtig ist", sagt Dr. Ramesh Visvanathan, der bei Siemens Corporate Research (SCR) in Princeton, New Jersey, die Abteilung Real-Time Vision and Modeling leitet. Bei der enorm ansteigenden Zahl von Überwachungskameras – tausende sind bereits an U-Bahnhöfen, Flughäfen oder in Stadtzentren wie in London im Einsatz – kann die Kontrolle nicht mehr allein durch Menschen erfolgen. Die menschlichen Beobachter sollen sich nur auf das konzentrieren müssen, was allein der Mensch richtig beurteilen kann.
Die Forscher entwickeln daher Programme, mit denen sich archivierte Videodaten schnell durchsuchen lassen. So testen Jörg Heuer und Dr. Andreas Hutter – Mitarbeiter von Siemens Corporate Technology in München – den Prototyp einer intelligenten Kamera, die Bilder mit Hilfe von Deskriptoren beschreibt. Angenommen, eine Videokamera nimmt von einem Dach aus eine Straße auf. Jedes Mal, wenn ein Objekt in ihr Blickfeld gerät, verfolgt ein ausgefeiltes Bildverarbeitungsprogramm dessen Bewegungen. Doch dieses Objekt wird nicht etwa als "Mann" oder "Lkw" klassifiziert, sondern über seine Bildkomponenten. "Wir wollen es nicht der Kamera überlassen, über die Natur eines Objekts zu befinden. Das ist Aufgabe des Anwenders. Die Kamera soll so viele Rohdaten wie möglich sammeln, die für den menschlichen Beobachter nützlich sind", sagt Hutter. Die Ergebnisse klingen kryptisch, stecken aber voller Informationen: "Dreieck mit Rechteck (gemeint ist eine Person mit Aktentasche), wurde erfasst an den Koordinaten xy um 10:57:28. Größe x, oben blau kariert, unten grau, Top braun (=Haare), verlässt Bereich bei xz um 10:57:41."
Metadaten als Schlüssel. Diese "Metadaten" und die Videobilder sind miteinander verknüpft und in einer Datenbank gespeichert. Je nach Anwendung hat das Sicherheitspersonal nur Zugang zu den Metadaten oder auch zu den Bildern. Wird später ein Ereignis untersucht – etwa ein Diebstahl –, und ein Augenzeuge beschreibt einen Verdächtigen, kann die Datenbank hierzu befragt werden.
"Nehmen wir an, wir suchen eine Frau mit braunen Haaren und einem karierten Blazer, die eine Aktentasche trägt", sagt Heuer. "Wir zeichnen für die Bilddatenbank-Software ein Dreieck mit einem kleinen Viereck und wählen weitere Deskriptoren zur Beschreibung aus. Dann grenzen wir die Suche auf die Datenbanken der Kameras ein, die die Ausgänge des Gebäudes überwachen. Das System zeigt nun Bilder, die mit den Deskriptoren übereinstimmen; jedem von ihnen ist ein Videoclip zugeordnet."
Heuer erklärt, dass die Kameras Personen oder Fahrzeuge zwar nicht verfolgen und von einer Kamera an die nächste "weiterreichen", aber sie verwenden alle die gleichen Deskriptoren. Gelingt es, die Suche auf ein oder zwei Personen zu begrenzen, liefert die Datenbankrecherche alle Orte, die die Verdächtigen aufgesucht hatten. "Das System kann die Wege jeder Person verfolgen, solange der Anwender in etwa weiß, wie sie aussah oder angezogen war. Diese Fähigkeit, Vergleiche anzustellen, ist das Besondere an der Technologie", sagt Hutter.
Das ist aber noch nicht alles. Je nach Auflösung und Einstellung der Kameras lassen sich damit auch Nummernschilder und Gesichter erkennen. Und die Technologie ließe sich auch bei Handys oder PDAs einsetzen. Erhielte dann jemand vom Sicherheitsdienst die Nachricht "unbefugter Zutritt in Lieferzone C", könnte er auf Knopfdruck von der Kamera das Bild des entsprechenden Fahrzeugs oder der Person auf sein Mobilgerät holen und so genau wissen, wonach er suchen muss.
Da diese Lösung auf dem allgemein akzeptierten MPEG-7-Standard basiert, geben ihr die Forscher gute Marktchancen. "Weil wir einen offenen Ansatz verfolgen, können auch andere Firmen für unser System fortgeschrittene Technologiekomponenten entwickeln. Davon werden wir direkt profitieren", sagt Hutter.
Kein falscher Alarm. Während der Prototyp von Hutter und Heuer ein komplexes System für den künftigen industriellen Einsatz ist, richten andere Forscher bei Siemens ihr Augenmerk auf wesentlich einfachere Bildtechnologien, die schnell auf den Markt kommen könnten. Setrix Inc., ein in München ansässiges Spin-off von SCR, sieht exzellente Marktchancen für preiswerte Bildsensoren im Privatsektor. "Die Idee ist, dass eine mit Mobilfunkkarte und Personendetektor ausgerüstete Mini-Kamera rund um die Uhr Fenster oder Türen beobachtet. Betritt dann jemand den Raum, sendet die Kamera eine Nachricht an den Eigentümer, der sich das entsprechende Bild auf seinem Handy oder PDA ansehen kann. Genauso gut kann er aber auch eine Bildserie durchlaufen lassen, die Minuten, Stunden oder Tage umfasst", erklärt Dr. Uwe Albrecht, Investitionspartner bei Siemens Venture Capital, dem Geldgeber von Setrix. Anders als Bewegungsmelder, die mitunter falschen Alarm auslösen, können solche Minicams zwischen Mensch und Tier unterscheiden.
Intelligente Kameras können normales Verhalten von ungewöhnlichem unterscheiden, also etwa erkennen, ob eine Person von Auto zu Auto geht oder nur einen Parkschein löst
Albrecht glaubt, dass intelligente Kameras bald in Privathaushalten auftauchen werden: "Die Hardware wird kleiner und günstiger, die Prozessorleistung steigt, die Kommunikationstechnik wird in Massenfertigung produziert, und der Output ist weit aussagekräftiger als alles, was ein herkömmlicher Bewegungsmelder bietet". Mobilfunkanbieter könnten solche Kameras bald auf den Markt bringen. Ausgestattet wären sie mit einer Software für die Erkennung einfacher Ereignisse: etwa eine Person, die ins Blickfeld gerät, oder ein Fenster, das geöffnet wird. Ausgefeiltere Modelle wären in der Lage, Software-Updates zu empfangen und Informationen auszutauschen.
Das SCR-Team von Ramesh Visvanathan hat ein noch weitergehendes System entwickelt, das Köpfe aus dem Hintergrund herauslöst. Das reduziert zum einen die nötige Übertragungsleistung von drahtlosen Bildtelefonen oder Überwachungskameras erheblich, weil sie sich nur noch auf das wesentliche Element – den Kopf – konzentrieren. "Zum anderen kann das System aber auch viele Menschen erfassen, die einen Raum betreten, auf ihre Gesichter fokussieren und ihre Bewegungen verfolgen", sagt der Bildverarbeitungsexperte. Zum Einsatz kommen dafür Sensoren mit einem Blickwinkel von 360° sowie schwenkbare Kameras, die Gesichter heranzoomen. "Das ist der Beginn einer neuen Generation intelligenter Sensoren, die selbstständig Bildaufgaben lösen und Daten wie etwa Verhaltensmuster von Besuchern in Kaufhäusern oder Passagieren in U-Bahn-Stationen an eine Zentrale weitergeben", sagt Ramesh Visvanathan. Auch für die Automatisierungstechnik und die Überwachung und Wartung von Maschinen eigne sich die Technologie ausgezeichnet.
Die höchste Stufe: Kameras im Freien. Die Interpretation von Echtzeitbildern ist natürlich in Räumen viel einfacher als im Freien. Doch auch dafür haben die Forscher von SCR und Roke Manor Research (RMR), dem Forschungs- und Entwicklungszentrum von Siemens in Südengland, Programme entwickelt, die bei jedem Wetter Straßen und Autobahnen überwachen und die Situationen analysieren. Die Fachleute konzentrieren sich dabei auf das Erkennen von Anomalien – z.B. stehende oder auch in die verkehrte Richtung fahrende Autos.
Eine solche Lösung wird bereits mit Erfolg in einem Tunnel in der Schweiz eingesetzt. Aber die Analyse-Software läuft in diesem Fall noch nicht innerhalb der Kameras, sondern auf PC, die mit einer speziellen Hardware von Siemens Building Technologies ausgerüstet sind. "Angesichts der sinkenden Kamerapreise sind wir aber sicher", sagt Visvanathan, "dass wir die Hochleistungsalgorithmen künftig auch in die Kamera integrieren können." Darüber hinaus arbeiten die SCR-Forscher mit einer Reihe von Universitäten zusammen. Beispielsweise mit Wissenschaftlern der Columbia University in New York, die untersuchen, wie etwa Gras oder Beton im nassen oder heißen Zustand aussehen. "Damit bauen wir dann statistische Modelle, um die Präzision der Bildverarbeitungssysteme zu verbessern", erklärt Visvanathan.
Die RMR-Experten wiederum haben eine Technologie namens Video Motion Anomaly Detection (VMAD) entwickelt, die lernt, welche Bewegungen in einer Szene normal sind und welche nicht (Bilder VMAD und Parkplatz). "Sobald etwas Ungewöhnliches passiert, schlägt das System Alarm oder startet die Aufzeichnung", sagt Anthony Dixon, bei RMR verantwortlich für Sicherheitsanwendungen. VMAD ist so leistungsfähig, dass es vom Tier auf der Straße bis zum Eindringling, der über den Zaun klettert, alles entdeckt, was nicht normal erscheint. "Das System arbeitet mit einer patentierten Merkmal-Extraktion, die ursprünglich für Roboter und 3D-Aufnahmen entwickelt wurde", erklärt Dixon. "Dank der lernenden Algorithmen können wir ganz oder zumindest zum Teil darauf verzichten, für verschiedene Anwendungen spezielle Programme schreiben zu müssen."
Zu erkennen, dass etwas Außergewöhnliches passiert ist, heißt natürlich noch lange nicht, zu wissen, was passiert ist. Aber das muss auch nicht sein, denn die Entwickler sind sich einig, dass auf absehbare Zeit der menschliche Verstand unverzichtbar sein wird. Doch andererseits sind Kameras in vielen Bereichen besser als der Mensch. Sie ermüden nicht und können Dinge wahrnehmen, die uns entgehen: winzige Fehler bei Hörgeräten ebenso wie ein Nummernschild, das nicht zur Liste authorisierter Fahrzeuge gehört. Und selbst bei der Gesichtserkennung, die der Mensch nach Millionen von Jahren der Evolution außergewöhnlich gut beherrscht, werden die intelligenten Kameras dank vieler neuer Entwicklungen wie etwa dem 3D-Scanning (siehe Interview mit Christoph von der Malsburg) bald Höchstleistungen vollbringen, die die meisten von uns überfordern dürften.
In zehn oder zwanzig Jahren wird zwar die Kamera auf dem Dach des Einkaufszentrums wahrscheinlich noch immer nicht wissen, warum ein Mann auf dem Parkplatz von Auto zu Auto geht, aber sie wird schlau genug sein, die am nächsten Laternenmast installierte Kamera zu bitten, sich diese Person genauer anzusehen, versuchen, den potenziellen Übeltäter zu identifizieren und zu prüfen, ob das Auto, in das er einsteigt, auch auf ihn zugelassen ist.
Arthur F. Pease
Stellen Sie sich vor, Sie sehen Ihren Lieblingssport aus der Sicht eines Spielers Ihrer Wahl oder von der Position des Schiedsrichters aus. Mit Hawk-Eye ist das möglich. Diese neue Technologie wurde von Roke Manor Research entwickelt, dem Forschungs- und Entwicklungszentrum von Siemens in Südengland. Hawk-Eye verwendet Videobilder von Kameras, die rund ums Spielfeld montiert sind und errechnet daraus dreidimensionale Bewegungsdaten des Balls und der Spieler – mit einer Genauigkeit von 5 mm und in Echtzeit. Hawk-Eye kann sogar die Flugbahn des Balls vorhersagen. Eingesetzt wird dieses Verfahren bereits von der BBC, Sky Sports und Channel 4 in Großbritannien. Da damit praktisch das ganze Spiel digitalisiert wird, können auch Fans mit Hilfe von Hawk-Eye via Internet Szenen aus verschiedenen Blickwinkeln rekonstruieren. Das Ergebnis kann man sich dann auf dem Computermonitor, dem Fernseher oder in naher Zukunft auch auf einem UMTS-Handy ansehen. Mit dem britischen Unternehmen Sunset+Vine hat Roke Manor Research die Firma Hawk-Eye Innovations Ltd gegründet: Sie konzentriert sich auf Anwendungen der neuen Technologie bei Sportveranstaltungen wie Kricket, Fußball, Tennis und Billard
Mehr dazu unter: www.roke.co.uk/sensors/imaging/tracking_prediction.asp