Promis im Netz

Von Philip Banse · 22.09.2008
Viele Suchmaschinen im Internet haben sich auf ganz bestimmte Aufgaben spezialisiert: Die einen suchen nach medizinischen Aufsätzen, andere fahnden nach Wohnungen, Fotos, Landkarten oder E-Mails. Vier Potsdamer Informatikstudenten haben jetzt eine Promi-Suchmaschine programmiert.
"Also, die Oberfläche ist möglichst einfach gehalten. Wir haben so ein Suchfeld, da können wir mal 'Tom Cruise' eingeben, das machen wir mal."
Alexander Kuscher hat sein Notebook auf dem Schoß, sitzt gemütlich im roten Sofa. Der 22-jährige Informatikstudent hat mit drei Kommilitonen des Hasso-Plattner-Instituts der Universität Potsdam Vipster.org programmiert, eine Promi-Suchmaschine. Zu Namen bekannter Persönlichkeiten stellt Vipster eine Art Dossier zusammen, mit Daten zur Person, Fotos und Videos.

"Er zeigt dann so eine Businesscard von Tom Cruise. Er zeigt hier Bilder von Tom Cruise, die wir uns angucken können, die sind von Flickr und von Yahoo Images. Das ist immer aktuell und wird automatisch gemacht. Hier können wir Videos von 'Youtube über ihn abspielen."

Die Arbeitsweise von Vipster ist relativ simpel. Die Suchmaschine sammelt bei öffentlich zugänglichen Nachrichtendiensten im Netz News ein: Bunte.de, Spiegel.de - rund 20 Quellen werden ausgewertet, das heißt nach Namen von und Informationen zu Promis durchsucht.

Tauchen in den Texten Namen prominenter Personen auf, schickt das System die Namen als Suchanfragen an Foto- und Videodienste wie Youtube und Flickr oder Buchhändler wie Amazon. Die Suchergebnisse werden dem Vipster-Nutzer anschließend übersichtlich zusammengestellt auf einer Website präsentiert.

Die technische Herausforderung dabei ist: Wie erkennt der Computer in Nachrichtentexten die Namen Prominenter? Denn für das System hinter Vipster.org sind diese Nachrichtentexte erstmal nicht mehr als eine Buchstabensuppe ohne Sinn und vor allem ohne Promis, sagt 22-jährige Vipster-Programmierer Christoph Thiele:

"Die Schwierigkeit ist: Man weiß nicht, was eine Name ist. Das heißt, man muss versuchen, Eigenschaften von Namen zu beschreiben. Man muss zum Beispiel sagen: Die meisten Namen sind zwei große Substantive hintereinander. Aber dann kriegt man auch alle möglichen Satzanfänge, wo das zweite Wort ein Substantiv ist, und man kriegt zum Beispiel auch keine Adelstitel.

Das heißt, da ist der große Aufwand, die Regeln halt so zu definieren, dass man schrittweise wirklich nur die Namen kriegt und den ganzen Ballast, der sonst noch in der News ist, halt raus filtert."

Oftmals tauchen in Nachrichtentexten jedoch mehrere Namen auf. Wer ist der Promi? Das lässt sich vergleichsweise leicht beantworten, sagt Alexander Kuscher:

"Der Name, der am häufigsten auftaucht, ist wahrscheinlich der Name, um den es sich bei News dreht. Und bei VIPs ist das in der Regel auch so. Und dann gibt es noch ein paar andere Namen, die nicht so oft auftauchen, und mit denen scheint der Promi eine Verbindung zu haben, denn die tauchen in den News auf."

Diese anderen Namen listet Vipster dann im Kasten "Freunde" auf. Dieses Verfahren zum automatisierten Suchen semantischer Einheiten in Texten ist nicht neu, wird auch schon andernorts angewendet.

So haben etwa Forscher der Humboldt-Universität verschiedene medizinische Texte und Krankenakten nach den Namen von Genen durchsuchen lassen. So stellten sie fest, dass ein und dasselbe Gen in Verbindung mit völlig unterschiedlichen Krankheiten vorkommt, Verbindungen, die vorher nicht aufgefallen waren.

Doch die Suchmaschine Vipster.org ist ein Prototyp und hat enge Grenzen. Da die Suchmaschine nur mit tagesaktuellen Klatschnachrichten gefüttert wird, werden vor allem die David Beckhams und George Clooneys dieser Welt erfasst und durch Videos und Fotos angereichert.

Wer nach Plato oder Karl Marx sucht, bekommt nur Datenmüll. Karl Marx etwa ist laut Vipster 79 Jahre alt und wurde zuletzt in Palo Alto, Kalifornien, geortet.
Obgleich die Technik nicht neu ist - als Semesterarbeit von vier Bachelor-Studenten sei Vipster.org durchaus beachtenswert, sagt der Suchmaschinen-Experte Hendrik Speck, Professor für Medieninformatik an der Fachhochschule Kaiserslautern:

"Also, als studentische Arbeit ist das durchaus ein sehr, sehr, sehr spannendes Projekt, das durchaus gängige Techniken einsetzt und eine sehr spannende Lösung produziert."

So sieht das auch der IEEE, der weltweite Berufsverband der Elektrotechniker und Informatiker. Die Standesorganisation hat die vier Vipster-Entwickler ins Finale eines internationalen Informatik-Wettbewerbs nach Peking eingeladen. Zu den übrigen zehn Finalisten gehört noch ein weiteres deutsches Team von der TU Dresden.

"Wir rechnen uns Chancen aus, aber die anderen Teams kennen wir nicht","

sagt Christoph Thiele. Und selbst wenn es nichts wird mit einem Preis in Peking - für Alexander Kuscher hat sich Vipster und die Teilnahme am Wettbewerb längst gelohnt:

""Zum einen das Projekt leiten, das Projekt durchziehen in vier Wochen, unter Zeitdruck, das war die Erfahrung, die wir gewonnen haben während des Projekts. Außerdem mussten wir ja auch ein wissenschaftliches Paper schreiben auf Englisch, es hat also dieses wissenschaftliche Arbeiten geübt. Also, der Wettbewerb war eher der Anreiz. Dass wir dann Finalist wurden, war das freudige Bonbon dafür."