Verborgenes Wissen in Datenbanken entdecken

Vorhersage von Proteinfunktionen

Die Informatiker unserer Universität haben beim KDD-Cup, der inoffiziellen Weltmeisterschaft des Fachgebietes Data Mining, mit diesmal über einhundertdreißig teilnehmenden Firmen und Forschungsgruppen, einen der drei zu vergebenden Titel gewonnen. Beim Data Mining bzw. der Wissensentdeckung in Datenbanken (WED, engl. Knowledge Discovery in Databases oder KDD) geht es darum, in den immensen Datenbeständen, die in Unternehmen und Organisationen aufgebaut worden sind, mit schnellen und intelligenten Computerverfahren verborgenes Wissen zu entdecken, um damit strategische Wettbewerbsvorteile zu erreichen.

Der KDD-Cup wird alljährlich anlässlich der internationalen Fachtagung des Gebiets in den USA vergeben. Mark-A. Krogel, Doktorand am Magdeburger Lehrstuhl für Wissensentdeckung und Maschinelles Lernen, geleitet von Prof. Dr. Stefan Wrobel, konnte bei der Vorhersage von Proteinfunktionen den Sieg erringen. Die anderen Gewinner waren Jie Cheng von der Canadian Imperial Bank of Commerce bei der Vorhersage von molekularen Bioaktivitäten und ein Team um Hisashi Hayashi von der Universität Tokio bei der Vorhersage von Proteinlokalisierungen.

Beim KDD-Cup erhalten alle teilnehmenden Teams einen vorher unbekannten Datenbestand und müssen mit ihren Analysemethoden das darin verborgene Wissen extrahieren, um eine Prognose- oder Klassifikationsaufgabe möglichst genau zu lösen. Die Aufgabenstellung, bei der die Magdeburger erfolgreich waren, erforderte die Vorhersage von Proteinfunktionen auf der Basis von Informationen über Gene, die Proteine verschlüsseln. Bei dieser Aufgabe waren über 40 Teams aus aller Welt am Start.

Entscheidend für den Erfolg war nicht nur ein neues Verfahren, das im Rahmen eines Projektes der DFG-Forschergruppe Informationsfusion entwickelt wurde, sondern auch die sorgfältige Analyse der Problemstellung - und natürlich das nötige Quäntchen Glück. Das neue Verfahren war zuvor schon bei der Analyse von Finanz- und Versicherungsdaten erfolgreich gewesen. Der Lehrstuhl für Wissensentdeckung und Maschinelles Lernen besteht seit 1998 und betreibt u. a. ein Data Mining-Labor, in dem auch Datenanalysen für externe Auftraggeber angeboten werden.
Mark-A. Krogel