Was die Suchmaschine nicht findet

Von Ingo Kottkamp · 30.08.2006
Wer bei Google ein Wort wie Spaß eingibt, bekommt sofort mehrere Millionen Treffer angezeigt. Trotz solcher riesigen Zahlen gibt es einen weiteren, noch größeren Teil des Internets, der nicht von den Suchmaschinen erfasst wird. Man kennt ihn unter den Schlagwörtern Deep Web oder Invisible Web.
Was erfahrenen Internetsurfern längst bekannt war, erhielt 2001 einen öffentlichkeitswirksamen Namen. In diesem Jahr erschien ein Aufsatz des Programmierers Mike Bergmann über das von ihm so genannte "Deep Web". Seine These: Jenseits dessen, was die Suchmaschine findet, gibt es ein unsichtbares Netz, das 550 mal so groß ist wie das sichtbare! Existiert wirklich ein Datenuniversum, von dem der unbedarfte Googlebenutzer nichts ahnt?

"Es ist ganz simpel. Da, wo nicht jeder auf den ersten Schritt rankommt, das ist das Deep Web. Da muss man sich nichts Besonderes vorstellen, das ist einfach ’ne zweite Stufe."

Rüdiger Schneemann ist Leiter der Abteilung Elektronische Dienstleistungen an der Technischen Universität Berlin. Jeden Tag werden hier Nutzer beraten, die über die Ergebnisse von Google, Yahoo oder Altavista hinauskommen wollen.

"Man geht in Google rein, findet etliches und denkt, das war’s. Ganz klar ist es unsere Erfahrung, wir holen immer deutlich mehr raus, als die Leute schon hatten."

Die Techniken dieser Suche sind oft einfacher, als man vermuten würde.

"Ein normaler Bibliothekskatalog, der im Web von jedem Benutzer durchsucht werden kann, ist für Google momentan nicht durchsuchbar. Die ganze Datenbank hat nur eine Adresse, und innerhalb dieser Adresse sind tausende oder Millionen von weiteren Informationen, eine Stufe tiefer gewissermaßen. Und da kommt eben Google mit den herkömmlichen Methoden nicht ran."

Ein Beispiel: Man gibt das Wort Bibliothek in die Suchmaschine ein. Der erste Treffer führt auf die Seite der Deutschen Nationalbibliothek. Besucht man sie, findet man natürlich nicht sofort alle Bücher, die der Katalog enthält. Man muss erst über eine Suchmaske nach Autor, Titel oder Stichwort suchen oder sich zu den verschiedenen Sammlungen der Bibliothek weiterklicken.

Diese Schritte kann man aber nur selbst machen; die Suchmaschine ist nicht in der Lage, der Benutzerführung zu folgen. Beinahe jeder, der öfter im Internet surft, war also schon im Deep Web, der Bibliothekskatalog ist nicht das einzige Beispiel.

"Das Telefonbuch, das normale Telefonbuch ist auch so ’ne Art Invisible Web, man muss erst zur Telekom gehen, und dann kann man im Telefonbuch suchen, wenn ich ’ne Rufnummer suche."

Schon die Treffer der Suchmaschine liefern ein verwirrendes Kuddelmuddel. Das gleiche Durcheinander findet sich auch im Deep Web wieder: Pornografie, Reklame, Privates, Tauschbörsen. Es gibt Inselseiten, auf die von keiner anderen Seite verwiesen wird, Suchmaschinen wie Google brauchen diese Verweise, um sie zu erfassen.

Andere Seiten bestehen lediglich aus Audio, Bild- oder Videodateien, zum Beispiel eine NASA-Seite mit Fotos von der Sonnenatmosphäre. Es existiert kein Schlagwort, das diese unzähligen Bilder erfassbar macht. Wieder andere können nur durch Passworte erreicht werden oder sind kostenpflichtig. Sie alle fallen durchs Raster der Suchmaschinen.

Was aber hat es mit Bergmanns spektakulärem Faktor 550 auf sich? Philipp Mayr forscht am Bonner Informationszentrum für Sozialforschung über Suchtechnologien. Er hat sich Bergmanns Schätzmethode genauer angeschaut und einen Berechnungsfehler nachgewiesen, der diese hohe Zahl sehr unwahrscheinlich macht. Und er hat noch eine andere Beobachtung gemacht, die das Größenverhältnis relativiert.

"Die ersten beiden Seiten, die er sozusagen seiner Analyse zugrunde gelegt hat, Webseiten, das waren Wetteraufzeichnungsdaten, also so Wolkenbilder, und solche Seiten gibt es nach wie vor, und die werden sicherlich auch ausgeschlossen."

Diese Wetterdaten waren schon damals, im Jahr 2001, zusammen über 500.000 Gigabyte groß. Es sind Satellitenaufnahmen, die in Echtzeit eingestellt werden und die nur Wissenschaftler auswerten können. Von Suchmaschinen können sie prinzipiell nicht erfasst werden. Sehr viele Daten im Deep Web sind also solche, die sich einfach keinem Stichwort zuordnen lassen.

Alle, die genauer recherchieren wollen, müssen also andere Suchmethoden finden. Wie aber kommt man rein ins unsichtbare Netz? Den meisten Erfolg hat der, der die richtigen Datenbanken kennt.

"Es gibt Faktendatenbanken in den Naturwissenschaften, in den Geisteswissenschaften; wir haben im Moment ungefähr 350 im Angebot hier bei uns, die einzeln durchsuchbar sind, die aber nicht über Google durchsuchbar sind. Das sind Teile dieses Invisible Webs."

Doch auch Suchmaschinenentwickler arbeiten an der Erschließung des Deep Web: Zum Beispiel mit Google Scholar, dem wissenschaftlichen Ableger von Google.

"Google Scholar hat mit den großen Verlagen, wissenschaftlichen Verlagen gesprochen, und es ist so gegangen, dass die den Suchrobotern von Google erlaubt haben, die Inhalte zu indexieren und damit sichtbar zu werden."

Damit sind zugleich Vorteile und Nachteile benannt, Google Scholar bietet viele Aufsätze, die das "normale" Google nicht hat, aber bestimmte Verlage sind darin überrepräsentiert. Etliches fehlt, und der Stand ist nicht immer der neueste. Ein anderes Projekt ist die an der Universität Bielefeld entwickelte Suchmaschine BASE-Search, sie analysiert verschiedene Fachdatenbanken. Am einfachsten wäre es natürlich, man könnte statt Stichworten einfach eine Frage in die Suchmaschine eingeben: Wie wird das Wetter morgen? Solche Techniken stecken aber erst in den Anfängen.

"Die richtige Information zu selektieren, das ist ’ne ganz schwierige Sache. Da muss man genau wissen, was man will."

Google hat in vielen Köpfen die Illusion festgesetzt, mit der simplen Eingabe eines Stichwortes könne man die Weisheit der Welt aus dem Internet saugen. Das unsichtbare Netz zeigt, dass die Dinge komplizierter liegen, auch die beste Suchsoftware kann nicht Erfahrungswissen und Fingerspitzengefühl bei der Recherche ersetzen. Letztlich ist die elektronische Welt des Internets, ob sichtbar oder unsichtbar, auch nicht so viel anders als die wirkliche Welt: Sich darin zu orientieren ist eine Lebensaufgabe.