Data Mining bei Siemens: Dr. Volker Tresp (rechts) und sein Kollege Christof Störmann von Corporate Technology haben eine Software entwickelt, die betrügerisches Verhalten bei Handybenutzern automatisch erkennt
Wer bei Amazon.com ein Buch, eine CD oder eine DVD bestellt, bekommt sofort Hinweise, welche Produkte ihn noch interessieren dürften. In der Regel treffen die Vorschläge ins Schwarze. Der Online-Händler bindet damit den Kunden an sich und steigert seinen Umsatz. Möglich macht dies das so genannte Data Mining – eine Art elektronische Schatzsuche, bei der Computerprogramme vorhandene Daten analysieren und daraus neue und nützliche Informationen gewinnen. Heute gilt Data Mining in erster Linie als Werkzeug für Dienstleistungsfirmen, etwa Versandhäuser, Mobilfunkbetreiber oder Banken, die aus Millionen Web-Klicks, Kontentransaktionen oder Telefongesprächsdaten ein besseres Marketing oder eine gezieltere Kundenbetreuung erreichen.
"Begonnen hat es mit dem Data Mining vor etwa zehn Jahren", berichtet Hans-Peter Kriegel, einer der Pioniere des Data Mining und Informatik-Professor an der Universität München. Seit Scannerkassen jedes Produkt im Supermarkt erfassen, sind umfassende Warenkorbanalysen möglich. "Legendär ist in der Forschergemeinde eines der ersten Ergebnisse: Wer große Windelpakete kauft, kauft auch Bier", erzählt Kriegel. Algorithmen erzeugten tausende dieser Assoziationsregeln, von denen einige nützlich, viele skurril, die meisten aber irrelevant waren. "Es wurde schnell klar, dass wertvolle Informationen nur zu bekommen sind, wenn eine klare Fragestellung zugrunde liegt", sagt Kriegel.
Data Mining ist mehr als die bloße Datenanalyse (siehe Grafik), es ist Teil des Prozesses, der bei der Aufbereitung der Daten beginnt und auch nach der Interpretation der Resultate meist nicht endet, sondern neue Fragen aufwirft. "Der Mensch spielt nach wie vor eine große Rolle, weil an vielen Stellen individuell eingegriffen werden muss, was nur mit Vorwissen möglich ist", sagt Ulrich Reincke, der beim US-Softwareanbieter SAS das Kompetenzzentrum Analytical Solutions in Deutschland leitet. "Im Gegensatz zur Statistik, bei der Daten gezielt erzeugt, ausgewählt und analysiert werden, arbeitet Data Mining mit unkontrolliert anfallenden Daten und ist in die Zukunft gerichtet", sagt Reincke. Die hohe Kunst sei es, nicht nur interessante Zusammenhänge im Ist-Zustand zu finden, sondern auch Prognosen machen zu können.
Forscher von Siemens CT um Dr. Ralph Neuneier untersuchen mit Data-Mining-Tools des Start-ups Panoratio Webseiten von Unternehmen. Damit analysieren sie die Klicks in Echtzeit. Den Nutzern können so Links angeboten werden, die andere Nutzer mit ähnlichem Klickverhalten besucht haben. Beispiel Siemens-Website: Pro Monat besuchen etwas mehr als eine Million Nutzer die Seite, die kürzlich von ComputerBild als beste Website unter 200 Unternehmen gekürt wurde. Die Panoratio-Software komprimiert die Daten, die beim Klicken anfallen, von einem Gigabyte auf etwa fünf Megabyte und macht sie in vernetzter Form zugänglich. Erfasst werden unter anderem Nutzungszeit, Domäne des Nutzers, zuvor besuchte Seite und die Reihenfolge der Klicks. So sehen die Forscher, wie die Nutzer auf der Seite navigieren und welche Inhalte sie interessieren. Eine Personalisierung könnte die Siemens-Webseiten noch attraktiver machen. Nutzer würden wieder erkannt und mit ihren bevorzugten Links auf der Eingangsseite begrüßt.
Fallstricke im Datendschungel. Als erstes müssen die Datenschürfer ihre Daten vorbereiten. "Das ist eine große Herausforderung", meint der Informatiker Reincke, denn viele Daten haben ein Volumen im zweistelligen Terabyte-Bereich und liegen in der Regel in unterschiedlichen Formaten vor. Wer schon mal eine große Adressdatei mit mehr als zehn Feldern pro Person aus einem e-Mail-Programm in eine Tabellenkalkulation konvertiert hat, kennt die Fallstricke des Datendschungels. Da werden Vor- und Nachname vertauscht, oder Postleitzahlen stehen im Feld der Straßennamen. Die Praxis ist noch schlimmer: Meist handelt es sich um Datenformate aus verschiedenen Unternehmensbereichen. Wenn dann endlich die Formate stimmen, müssen Fehler und Ausreißer erkannt und getilgt werden. Experten schätzen, dass die Aufbereitung der Daten 60 bis 90 % des Gesamtaufwands ausmacht.
Je nach Fragestellung wählen die Datenbank-Spezialisten dann das Werkzeug für die Bearbeitung aus. "Entscheidungsbäume eignen sich sehr gut, um Regeln abzuleiten", erklärt Dr. Volker Tresp von Siemens Corporate Technology (CT) in München. Die Entscheidungsbäume, die den Flussdiagrammen von Computerprogrammen ähneln, bauen die Informatiker anhand der interessierenden Fragen und den möglichen Antworten nach und nach auf. Sie verwenden dazu Teile des Datenmaterials, mit dem sie den Baum auch auf seine Tauglichkeit testen. Haben die Informatiker dann ein System geschaffen, in dem alle Faktoren korrekt abgebildet sind, können sie recht gut Prognosen ableiten und diese auch erklären. Ähnlich funktionieren Neuronale Netze, die sich an der Struktur unseres Gehirns orientieren. "Sie sind noch robuster gegenüber fehlerhaften Daten, aber schwieriger zu interpretieren und werden daher eher bei sehr komplexen Problemen angewandt", sagt Tresp. Siemens setzt Neuronale Netze unter anderem bei der Optimierung von Walzwerken oder der Papierproduktion ein und hat ein Modell für Absatz- prognosen entwickelt, etwa für Handys (siehe Pictures of the Future, Herbst 2003, Simulation und Optimierung).
Eine dritte Methode sind so genannte Clusteranalysen, die sich für das Erkennen von Ähnlichkeiten eignen oder Ausreißer besonders gut identifizieren können. Basierend auf einem solchen Verfahren hat Hans-Peter Kriegel mit seinem Team einen Prototypen zur interaktiven Ähnlichkeitssuche entwickelt. Das Programm Boss ist auf CAD-Teile spezialisiert – etwa Autoteile –, kann aber im Prinzip beliebige Objekte organisieren.
Aktien in Tortenform (oben): Jedes Segment stellt von innen nach außen den Kursverlauf einer Aktie des FAZ-Index über 20 Jahre dar. Die Kurse sind normiert und vergleichbar: Hell bedeutet hohe Kurse, dunkel niedrigere. Gleichfarbige Ringe markieren gleiche Kursverläufe. Zur Analyse großer Datenbanken gibt es das an Universitäten entwickelte System VisDB, das verschiedene Visualisierungen erlaubt (unten)
Ein anderes Clusterverfahren platziert ähnliche Objekte, beispielsweise Schrauben, in einer zweidimensionalen Darstellung nahe beieinander. Boss ordnet die Objekte hierarchisch und erzeugt für ähnliche Gegenstände geeignete repräsentative Darstellungen. "Ein Entwickler in der Auto- oder Flugzeugindustrie kann dann rasch herausfinden, ob er ein bereits vorhandenes Teil auch für ein neues Modell verwenden kann", erläutert Kriegel. "Der Ingenieur kann in der Datenbank suchen, ohne das Bauteil genauer spezifizieren zu müssen. Dies spart Zeit und Geld."
Wann fällt eine Maschine aus? Nicht nur die Entwicklung, auch die Produktion kann von Data Mining profitieren. Ob Halbleiterherstellung, Handyfertigung oder Autobau: Die Teile der Zulieferer mögen alle für sich gesehen die Vorgaben erfüllen, verursachen aber vielleicht in ihrer Kombination Probleme. Eine Vernetzung aller Prozessdaten kann Korrelationen aufzeigen, die ein einzelner Ingenieur nicht und die Qualitätskontrolle nur schwer entdecken würde. Ein Data-Mining-Werkzeug, etwa ein Neuronales Netz, erkennt, welche Parameter kritisch für eine hohe Qualität sind und daher am sorgfältigsten überwacht werden sollten. Möglich sind auch Vorhersagen, etwa zur Wartung. "Anhand der Aufzeichnungen über Anlagen und Prozesse können Aussagen über die Ausfallwahrscheinlichkeit einer Maschine getroffen werden", sagt Ulrich Reincke von SAS.
Um die Erkennung von Auffälligkeiten geht es auch bei Systemen, die Kreditkarten-Betrug erkennen sollen. Aus Kontenbewegungen wird ein Muster generiert, wie sich Normalkunden verhalten. Verdächtig ist etwa, wenn mit einer Kreditkarte in rascher Folge von Geldautomaten abgehoben wird oder oft teure Elektronikgeräte gekauft werden. Der Algorithmus erkennt solche Fälle und warnt die Kreditinstitute – die Karte wurde möglicherweise gestohlen. Für diese Analysen braucht man sehr leistungsfähige Rechner, da die großen Datenmengen schnell und zyklisch abgearbeitet werden müssen.
Data Mining ist ein komplexer Prozess, der in Computern abläuft, aber an mehreren Stellen das geschickte Eingreifen des Menschen erfordert. Die verschiedenen Daten werden zunächst in geeigneter Weise zusammengefasst und damit analysierbar gemacht. Vor dem eigentlichen Data Mining erfolgt noch eine Selektion von Daten. Nach der Analyse müssen die Experten die gefundenen Muster interpretieren, um herauszufinden, ob die Software interessante Zusammenhänge entdeckt oder Belangloses zu Tage gefördert hat
Ein anderes Prognose-Werkzeug hat Siemens CT für Banken zur exakten Planung des Befüllungszeitpunkts und der erforderlichen Geldmenge von Geldautomaten entwickelt. Bisher schlummern darin Millionen Euro, die nie abgehoben werden, pro Automat zwischen 20 000 und 40 000 €. Anhand der Abhebungen ermittelt die Software, welche Summe zu welchem Zeitpunkt in welchem Automaten vorhanden sein muss, damit die Kreditinstitute dort möglichst wenig totes Kapital platzieren. Allein in Deutschland könnten die Banken mit dem freigewordenen Kapital der rund 50 000 Geldautomaten bei einer moderaten Verzinsung von 5 % pro Jahr 50 Mio. € verdienen.
Alarm bei Handy-Betrug. Siemens CT hat auch ein System zur Erkennung von Betrug in Mobilfunknetzen entwickelt, das bereits bei einem Netzbetreiber mit etwa einer Million Kunden läuft. "Unsere Software schlägt Alarm, wenn sich der Besitzer eines Handyvertrags ungewöhnlich verhält", erklärt Volker Tresp. Das können Auslandsgespräche in rascher Folge sein oder viele Anrufe zu kostenpflichtigen Servicenummern. Hintergrund: Betrüger schließen einen Vertrag mit einem ungedeckten Konto ab und schädigen die Mobilfunkfirmen, indem sie Gesprächsminuten billig gegen Bares verkaufen, solange die Karte nicht gesperrt wird.
SAS analysiert mit Data-Mining-Methoden, welche Kunden ihren Mobilfunkvertrag demnächst mit hoher Wahrscheinlichkeit kündigen werden. Vorteil für den Mobilfunkbetreiber: Er kann Wechselwilligen rechtzeitig ein neues, attraktiveres Angebot unterbreiten und so die Kundenbindung noch ausbauen. SAS verwendet für die Untersuchung alle telefonbezogenen Daten, also etwa Dauer und Uhrzeit eines Gesprächs sowie Tarif und gewählte Nummern, und setzt sie in Zusammenhang mit Informationen über den Wohnort des Kunden, die von Datenanbietern kommen und bis zu 100 Parameter enthalten. Dazu kommen die Informationen aus den Call Centern, also Beschwerden, Fragen oder Wünsche von Kunden. Sämtliche Personendaten werden codiert und anonymisiert und sind so nicht mehr zurückzuverfolgen.
Aus Datenschutzgründen speichern Data-Mining-Werkzeuge die Rohdaten nur für kurze Zeit und fassen sie in regelmäßigen Abständen zu größeren Beständen zusammen, die dann völlig anonym sind. "Wir füttern die Software mit den Daten aus der Vergangenheit", sagt Ulrich Reincke von SAS. "Dadurch erhalten wir Muster, die für Kunden charakteristisch sind, die ihren Vertrag tatsächlich gekündigt haben." Die Muster werden dann auf die aktuellen Daten angewandt, wobei für jeden Kunden eine Kündigungswahrscheinlichkeit herauskommt.
e-Mails auswerten. Die Anrufe in den Call Centern liegen als Texte vor. Sie werden mit dem neuen Werkzeug des Textminings untersucht. Dabei erkennt ein Programm ähnliche Dokumente, indem es die Wörter vergleicht. "Es zerlegt einen Text automatisch in seine Bestandteile", erklärt Reincke. Die Software bringt alle Wörter in die grammatische Grundform und wählt einfache Synonyme, um die Komplexität zu reduzieren. Aus der Tatsache, wie oft welche Wörter verwendet werden, schließt das Programm auf Ähnlichkeiten in Texten. Ein gut trainiertes Data-Mining-System kann damit etwa eingehende e-Mails klassifizieren und automatisch weiterleiten.
Netze aus Telefon- und e-Mail-Verbindungen: Aus den Telefon-Daten errechnet eine Software die Verbindungsdichte in den USA (links). Hewlett-Packard hat seine Organisationsstruktur mit dem e-Mail-Verkehr zwischen den Mitarbeitern verglichen und dabei virtuelle Gemeinschaften entdeckt (rechts). Jeder Punkt entspricht einem Mitarbeiter, jede Linie einer e-Mail-Verbindung
Forscher von Siemens CT haben die Software Teklis für Text Mining geschrieben und damit die eingehende Post sortiert. In einem Projekt wurden die Briefe geöffnet, eingescannt, mit dem Programm analysiert und dann elektronisch verteilt. Text Mining könnte aber auch im Internet eingesetzt werden, um Webseiten automatisch zu analysieren.
Die Software von SAS hat Hewlett-Packard (HP) nach der Fusion mit Compaq verwendet, um die Produktpalette der verschiedenen Marken in neue Kategorien einzuordnen. Dazu wurden die Beschreibungen von mehr als einer Million Produkte verglichen. Die Klassifizierung, die bei manueller Arbeit ein ganzes Team lange beschäftigt hätte, erledigte ein einziger Mitarbeiter innerhalb weniger Wochen mit 95-prozentiger Genauigkeit. "Mit Methoden des Data Minings fanden wir zudem heraus, dass unsere Organisationsstruktur keineswegs immer die echten Verbindungen zwischen den Mitarbeitern widerspiegelt", berichtete Bernardo A. Huberman, Leiter der HP Labs, im März 2004 auf einer Tagung. HP hatte die e-Mail-Verbindungen der Mitarbeiter automatisch analysiert und so eine Vielzahl virtueller Gemeinschaften identifiziert, die in der Organisationsstruktur keine Entsprechung hatten.
Das enorme Potenzial des Data Minings ist bisher nur ansatzweise erschlossen. Der lukrative Markt lockt auch Firmen wie Microsoft. Der Softwarekonzern hat eine Beta-Version seiner Data-Mining-Plattform Yukon zum Test an mehr als 10 000 Software-Ent-wickler geschickt. Microsoft will mit Yukon ähnlichen Produkten von Oracle und IBM Konkurrenz machen. "Die Plattform wird verschiedene Algorithmen enthalten, etwa für Entscheidungsbäume, Clustering und Assoziationsregeln", sagt Surajit Chaudhuri, Leiter der Abteilung Datemmanagement, -exploration und -mining bei Microsoft. "Langfristig wollen wir auch Text Mining nutzen." Damit könnten dereinst auch private Microsoft-Anwender ältere Daten aus ihren Office-Programmen strukturieren und analysieren.
Ähnlich zukunftsgewandt ist Panoratio (siehe Kasten und Pictures of the Future, Herbst 2003, Business Acceleratoren). Die Firma hat eine Art MP3 für Datenbanken entwickelt, das den Speicherplatz von Terabyte auf einige hundert Megabyte verkleinert und blitzschnelle Analysen auf Standard-PC ermöglicht. Nicht nur Amazon-Kunden bekämen dann auf sie zugeschnittene Lesetipps, auch Industriefirmen könnten künftig ihre Datenschätze besser heben und damit Logistik und Produktion optimieren.
Norbert Aschenbrenner