Digitale Assistenten – Medico: die intelligente Bildersuchmaschine
Antwort- statt Suchmaschinen
Wie kann ein Computer lernen, Bilder zu interpretieren, zu katalogisieren, sie in Datenbanken zu finden und Ähnlichkeiten zu erkennen? Dies wollen Forscher im Projekt Medico herausfinden – Teil des deutschen Theseus-Programms.
Es heißt, das Leben bestehe aus Graustufen und nicht aus purem Schwarz-Weiß-Denken. Computer sind aber so: Sie sind einfältig und "denken" nur in 0 und 1, in Schwarz und Weiß. Das liegt daran, dass sie – überspitzt gesagt – bislang nur Zahlen verarbeiten, aber keine Bilder oder Texte interpretieren können. Genau dies wollen ihnen Forscher nun beibringen: Computer sollen künftig auch feine Nuancen berücksichtigen können.
Das ist die Triebfeder für die Entwicklung des Semantischen Webs, auch Web 3.0 genannt. Dieses Web 3.0 ist Kern des Theseus-Programms, das seit Herbst 2007 vom deutschen Bundeswirtschaftsministerium gefördert wird. "Eine der größten Herausforderungen ist, dass Computer Bildinhalte und deren Zusammenhänge automatisch erkennen", erklärt Prof. Dr. Hartmut Raffler, bei Siemens Corporate Technology (CT) verantwortlich für Informations- und Kommunikationstechnologie und Koordinator für alle Theseus-Aktivitäten.
Unter dem Dach von Theseus gibt es das Anwendungsszenario Medico, für das Siemens die Federführung übernommen hat. Weitere Partner sind das Deutsche Forschungszentrum für Künstliche Intelligenz in Kaiserslautern, das Fraunhofer Institut für Graphische Datenverarbeitung in Darmstadt und die Ludwig-Maximilians-Universität in München. Im übergeordneten Core Technology Cluster von Theseus entwickeln zudem Experten der CT sowie der Division Industry Solutions am zentralen Softwarekern mit.
Innerhalb von Medico wird erstmals medizinisches Wissen mit neuen Methoden der Bildverarbeitung, der wissensbasierten Datenverarbeitung und maschinellem Lernen verknüpft. Dr. Alok Gupta vom Sektor Healthcare in Malvern, USA, und Dr. Jörg Freund in Erlangen koordinieren etwa ein Dutzend Siemens-Kollegen, damit die universell einsetzbare Suchmaschine Medico für medizinische Bilder entstehen kann.
Bilder und all ihre Zusammenhänge. Medico soll anatomische Strukturen wie Knochen, Gefäße oder Organe sowie deren krankhafte Veränderungen erkennen, die Daten automatisch katalogisieren sowie Vergleichsbilder und Behandlungsberichte aus mehreren Datenbanken zusammentragen. "Jeder Arzt", erklärt Jörg Freund die Vision von Medico, "soll damit etwa zu einem gerade gemachten Röntgenbild alle verfügbaren Informationen erhalten, die jemals vorher zu dem untersuchten Objekt gemacht wurden – mit allen Krankheitsbildern, Symptomen, Diagnosen und Therapien." Schon Ende 2009 ist der erste Prototypentestlauf am Universitätsklinikum Erlangen geplant.
Die intelligente Bildsuche – da machen sich die Fachleute nichts vor – steckt noch in den Kinderschuhen. Aktuelle Datenbanken, wie das webbasierte PACS (Picture Archiving and Communications System) oder RIS (Radiology Information System) arbeiten nach wie vor mit einem Indexsystem auf der Basis von Schlüsselwörtern, die durch Menschen vergeben werden und eben nicht durch den jeweiligen Inhalt des dargestellten Bildes automatisiert erzeugt werden.
Die Siemens-Experten konzentrieren sich zunächst auf bildgebende Verfahren wie Computer- und Magnetresonanz-Tomographie, Röntgen oder Ultraschall, um in einem abgesteckten Bereich die bisherige "Semantiklücke" zu schließen. Mit Semantik meinen Germanisten eigentlich die Wortbedeutungslehre, in diesem Zusammenhang ist aber das Verstehen von Bildinhalten durch ein Computerprogramm gemeint.
"Unser Anliegen innerhalb Theseus ist es, für den Wust unstrukturierter Daten eine allgemeingültige Ausdrucksweise zu entwickeln, die für Ordnung und Hierarchie sorgt", erläutert Dr. Volker Tresp, der als zentrale Anlaufstelle den Bogen zu allen sechs Anwendungsszenarien von Theseus spannt. Der Rechner soll befähigt werden, Informationen – egal ob Texte, Videos oder Multimediadaten – den richtigen Bildern zuzuordnen, zu finden und zu interpretieren. Für diese intelligente Bildsuchmaschine müssen viele Komponenten entwickelt werden: Verfahren der Mustererkennung, die Ontologiemodellierung (die das Hintergrundwissen computerverständlich macht), computergestützte Erkennungssysteme oder klinische Entscheidungshilfen.
Verstehen, was der Arzt meint. Zur Beschreibung der Bildinhalte verwenden die Fachleute von Medizinern entwickelte Ontologien, wie RadLex oder das sehr detaillierte Foundational Model of Anatomy Ontology. "Auf dieser Basis wollen wir die Bildinhalte in einer Hierarchie beschreiben, die auf der menschlichen Anatomie basiert", erklärt Jörg Freund. "Dann muss der Arzt nicht lange auf die gewünschte Antwort warten, wenn er etwa mit dem Cursor gerade auf einen Körperteil zeigt und wissen will, ob sich das Volumen eines Organs verändert hat."
"Mit Medico", betont Freund, "konzentrieren wir uns zwar zunächst auf die semantische Suche in medizinischen Bilddatenbanken, aber das Anwendungspotenzial geht deutlich darüber hinaus." Vorausgesetzt, die ethischen und datenschutzrechtlichen Vorschriften sind geklärt, kann die pharmazeutische Industrie etwa für klinische Studien davon profitieren. Auch Versicherungen und Behörden würden mit der intelligenten Suchmaschine künftig wesentlich präzisere demografische oder statistische Untersuchungen durchführen können.
Klaudia Kunze
30 Forschungseinrichtungen arbeiten unter dem Dach des deutschen Theseus-Programms unter der Koordination von empolis, einer Bertelsmann-Tochter, zusammen. Ursprünglich war dies eine deutsch-französische Initiative namens Quaero (lateinisch "ich suche"), bis sich zwei verschiedene Arbeitsschwerpunkte herauskristallisierten. Während sich der deutsche Part Theseus auf die Entwicklung einer semantischen Plattform konzentriert, die Informationen inhaltsorientiert verarbeitet, arbeiten die französischen Kollegen mit Quaero an der Weiterentwicklung existierender Suchtechnologien für multilinguale und multimediale Abfragen. Regelmäßige Treffen sollen dazu führen, dass die komplementären Ansätze später wieder zusammengeführt werden können. Theseus hat eine Laufzeit von fünf Jahren und wird vom deutschen Bundeswirtschaftsministerium mit 90 Mio € gefördert. Noch einmal den gleichen Betrag bringen die beteiligten Partner auf. Ab 2009 sollen auch kleine und mittelständische Unternehmen einbezogen werden. Neben der Leitung des "Use-case" Medico ist Siemens an den Anwendungsszenarien Alexandria (soziale Netze, Web 2.0) und Texo (semantisch annotierte Geschäftsprozesse) beteiligt. Weitere Anwendungsszenarien, an denen Siemens nur mittelbar durch das Core Technology Center beteiligt ist, sind Contentus (Sicherung des Kulturerbes, digitale Bibliotheken oder Sendearchive), Ordo (Ordnung digitaler Informationen) und Processus (Optimierung von Geschäftsprozessen).