Tomaso Poggio (63) ist Professor für Kognitionswissenschaften am Massachusetts Institute of Technology (MIT) in Cambridge, USA, sowie am Labor für künstliche Intelligenz des MIT. Außerdem ist er Co-Direktor des Zentrums für biologisches und maschinelles Lernen am MIT. Bevor er 1981 ans MIT kam, hatte er zehn Jahre am Max-Planck-Institut für biologische Kybernetik in Tübingen gearbeitet. Seinen Doktorgrad erwarb er 1970 an der Universität Genua. Poggio ist Mitglied der italienischen Akademie der Wissenschaften und der amerikanischen Akademie der Künste und Wissenschaften.
Was ist Ihre Definition von maschineller Intelligenz?
Poggio: Die beste Definition stammt aus dem Jahr 1953 vom britischen Mathematiker Alan Turing. Er stellt sich eine Situation vor, in der man mit jemandem in einem anderen Raum spricht, den man nicht sieht. Wenn nun dieser Jemand eine Maschine wäre, und man sie nicht als Maschine erkennen würde, dann – so sagte er – hätte man es mit einer Art künstlicher Intelligenz zu tun.
Ist Lernen das Tor zur Intelligenz?
Poggio: Das ist eine plausible Behauptung. Evolutionär betrachtet sind Primaten und Menschen von allen Lebewesen am wenigsten fest verdrahtet. Insekten lernen zwar, aber ein Großteil ihres Verhaltens ist durch die Evolution begrenzt. Menschen brauchen dagegen viele Jahre für ihre Entwicklung. Zum Beispiel können Kinder unter zehn Jahren Gesichter nicht so gut wiedererkennen wie Erwachsene.
Wie wichtig sind Gefühle, um Gelerntes zu bewerten?
Poggio: Emotionen sind entscheidend, wenn es um die Erklärung menschlichen Verhaltens und die Entwicklung von Intelligenz geht. Biologisch gesehen sind unsere Gefühle wahrscheinlich sehr wichtig für das Lernen. Doch um lernfähige Maschinen zu entwickeln, denke ich nicht, dass sie unbedingt nötig sind. Doch wenn eine Maschine den Turing-Test bestehen soll, muss sie emotionale Intelligenz simulieren können. Das ist ein schwieriges Feld: Ein Simulationssystem kann sich sehr stark von einer Person unterscheiden – wenn aber niemand den Unterschied merkt, ist das dann wichtig für uns?
Wo liegt für Maschinen die größte Schwierigkeit, eine dem Menschen ähnliche Lernfähigkeit zu erreichen?
Poggio: Wir wissen es nicht! Ich denke aber, dass Maschinen irgendwann genauso gut lernen können wie wir, oder sogar noch besser. Bis dahin wird noch viel Zeit vergehen, aber es ist sicher nicht unmöglich. Bis vor rund zehn Jahren hieß es, dass das menschliche Gedächtnis viel größer wäre als das von Computern. Heute stimmt das nicht mehr. Unsere Gedächtniskapazität kann nicht viel umfangreicher sein als die Anzahl der Synapsen im Gehirn. Jedes Neuron hat im Schnitt etwa 1000 Synapsen, bei 1011 Neuronen sind es also 1014 Bit – das entspricht 100 Festplatten mit je ein Terabyte oder 1000 Gigabyte. So eine Festplatte bekommt man schon für weniger als 50 Euro. Maschinen sind also von der Speicherkapazität des Gehirns nicht mehr weit entfernt. Was aber noch fehlt, sind die Algorithmen, um diese Rechenleistung in etwas umzuwandeln, was wir Intelligenz nennen würden.
Warum? Was ist dafür nötig?
Poggio: Im Moment wissen wir das noch nicht. Wenn ich es wüsste, wäre Intelligenz – die wahrscheinlich größte Herausforderung der Wissenschaft – nur noch eine Sache der Technik. Ich glaube, der Kern des Problems liegt in der Integration der verschiedenen Aspekte von Intelligenz, zum Beispiel Sehvermögen, Sprache und gesunder Menschenverstand. Aber um herauszufinden, wie diese Faktoren zusammenhängen, brauchen wir noch grundlegende Forschungen in der Neuro- und Kognitionswissenschaft sowie der Informatik und deren Kombination.
Inwiefern hilft es dabei, zu verstehen, wie unser Großhirn funktioniert?
Poggio: Wenn Intelligenz heißt, den Turing-Test zu bestehen, dann ist es auf jeden Fall nützlich, zuerst das menschliche Gehirn zu verstehen. Die Neurowissenschaft hilft uns hier sehr. Sie hat sich in den letzten 20 Jahren enorm schnell weiterentwickelt. Ich glaube, dass es nur noch eine Frage der Zeit ist, bis unser Wissen über die Funktionsweise des Gehirns direkt in Anwendungen wie der Bilderkennung und dem maschinellen Lernen genutzt werden kann.
Haben Sie in diesen Bereichen schon gearbeitet?
Poggio: Ja. Meist haben wir über Elektroden Hirnsignale von Makaken-Affen aufgezeichnet. Dabei kann man sogar Daten von einzelnen Neuronen gewinnen. Als Ergebnis erstellten wir ein mathematisches Modell der Sehrinde von Makaken, das die Lernaktivität von etwa einer Million Gehirnzellen simuliert. Wir lassen es nun als Computerprogramm laufen und haben es bereits mit tausenden Fotos trainiert, um acht Verhaltensweisen von Mäusen zu erkennen: etwa Rennen, Schlafen, Hängen oder Säugen. Die Mäuse waren genetisch manipuliert, um Autismus, Depression oder Schizophrenie zu entwickeln. Das Programm kennzeichnet in einem Video ein Verhalten automatisch als Schlafen, Rennen und so weiter und speichert die Dauer in einer Datenbank. Außerdem erkennt es die Übergänge von einem Verhalten zum anderen, so dass eine Art Fingerabdruck des Verhaltens entsteht. Durch die Automatisierung dieses Prozesses konnten wir das Verhalten schnell und objektiv mit den genetischen Veränderungen korrelieren.
Wie genau ist dieses Verfahren?
Poggio: Wir haben die Ergebnisse des Systems mit denen menschlicher Beobachter verglichen, und sie sind genauso gut oder sogar besser. Und das System arbeitet rund um die Uhr, ohne sich zu langweilen!
Könnte eine solche Technologie zu Überwachungssystemen führen, die menschliche Aktivitäten analysieren?
Poggio: Im Prinzip ja. Aber natürlich würde solch ein System sehr viel Training brauchen. Menschliche Verhaltensweisen sind viel komplizierter als die von Mäusen.
Arbeiten Sie auch daran, einem intelligenten künstlichen System ein Bild zu zeigen und eine Beschreibung dessen zu bekommen, was darauf passiert?
Poggio: Ja. Aber so weit sind wir noch nicht. Ich denke, wir werden bald Systeme haben, die automatisch erkennen können, was auf einem Bild zu sehen ist: ein Fußgänger, ein Auto, ein Vogel. Es gibt aber viel komplexere Fragestellungen – etwa zu verstehen, was Menschen auf einem Bild gerade tun. Heute gibt es noch keinen Computer, der so etwas kann.
Was ist so schwierig daran?
Poggio: Menschen profitieren von einer riesigen Menge an Wissen und Erfahrung. So können wir leicht erkennen, dass eine Person gerade in ein Gespräch verwickelt ist und eine andere nicht. Doch für so etwas braucht man weit mehr als nur reines Sehvermögen. Man braucht Intelligenz.
Werden Maschinen in zehn Jahren über diese Art von Intelligenz verfügen?
Poggio: Die Fähigkeit, das Geschehen auf einem Bild zu beschreiben, wäre eine der größten intellektuellen Herausforderungen für eine Maschine. Wir werden noch viel Grundlagenforschung benötigen, um solche Aufgaben lösen zu können. Ich denke, das wird mindestens noch 20 Jahre dauern.