Montag, 20. Oktober 2014MESZ10:19 Uhr

Elektronische Welten

MedizinKrank gespielt
Eine Geige, eine Flöte, eine Mundharmonika und ein Banjo liegen auf einem Notenblatt.  

Einige leiden unter Kreuzschmerzen, andere bekommen verkrümmte Finger: Viele Musiker leiden unter Berufskrankheiten. Wissenschaftler der ETH Zürich wollen den Ursachen häufiger Beschwerden auf den Grund gehen.Mehr

EmpfehlungenAbenteuer, Strategie, Denkspiel
Das Exemplar einer durchsichtigen Sonderedition des ersten Gameboys ist am 14.04.2014 im Computerspielmuseum in Berlin in einer Vitrine zu sehen.

Im Sommer gibt es wenig Neues auf dem Spielemarkt, wir haben dennoch drei Spiele gefunden. Man kann sich als strategisch denkender Ermittler austoben, sich auf eine gefährliche Insel begeben oder ein Männchen durch ein Level zum Ausgang führen. Mehr

GefahrgutEin Roboter für den Treibstofftransport
Mitarbeiter in der PCK Raffinerie GmbH im brandenburgischen Schwedt 

Roboter gibt es heute in vielen Bereichen. Auch die Raffinerie im brandenburgischen Schwedt will künftig eine mobile Maschine einsetzen. Dort soll sich ein Roboter sogar in komplexen Situationen von selbst zurechtfinden.Mehr

weitere Beiträge

Wissenschaft und Technik

Drogen"Kommt ein guter Rauch"
Vier E-Shishas

Eine E-Shisha ist wesentlich kleiner als die orientalische Wasserpfeife und ähnelt in der Funktion einer elektronischen Zigarette. Die meist sehr bunten elektronischen Shishas machen Jugendliche glücklich − Eltern und Suchtexperten sind hingegen besorgt.Mehr

weitere Beiträge

Breitband

Im Internet vervielfältigen sich neue Inhalte, Formen und Vertriebswege. Darüber hinaus beschleunigt die Digitalisierung die Konvergenz der traditionellen Kanäle Zeitung, Hörfunk und Fernsehen. Breitband ist ein wöchentliches, aktuelles Magazin, das diese vielschichtigen Prozesse aufzeigt, analysiert und einordnet.

Elektronische Welten / Archiv | Beitrag vom 30.08.2006

Was die Suchmaschine nicht findet

Deep Web - Über das unsichtbare Internet

Von Ingo Kottkamp

Ein riesiger Teil des Internets ist für Suchmaschinen wie Google nicht zu finden.
Ein riesiger Teil des Internets ist für Suchmaschinen wie Google nicht zu finden. (AP)

Wer bei Google ein Wort wie Spaß eingibt, bekommt sofort mehrere Millionen Treffer angezeigt. Trotz solcher riesigen Zahlen gibt es einen weiteren, noch größeren Teil des Internets, der nicht von den Suchmaschinen erfasst wird. Man kennt ihn unter den Schlagwörtern Deep Web oder Invisible Web.

Was erfahrenen Internetsurfern längst bekannt war, erhielt 2001 einen öffentlichkeitswirksamen Namen. In diesem Jahr erschien ein Aufsatz des Programmierers Mike Bergmann über das von ihm so genannte "Deep Web". Seine These: Jenseits dessen, was die Suchmaschine findet, gibt es ein unsichtbares Netz, das 550 mal so groß ist wie das sichtbare! Existiert wirklich ein Datenuniversum, von dem der unbedarfte Googlebenutzer nichts ahnt?

"Es ist ganz simpel. Da, wo nicht jeder auf den ersten Schritt rankommt, das ist das Deep Web. Da muss man sich nichts Besonderes vorstellen, das ist einfach ’ne zweite Stufe."

Rüdiger Schneemann ist Leiter der Abteilung Elektronische Dienstleistungen an der Technischen Universität Berlin. Jeden Tag werden hier Nutzer beraten, die über die Ergebnisse von Google, Yahoo oder Altavista hinauskommen wollen.

"Man geht in Google rein, findet etliches und denkt, das war’s. Ganz klar ist es unsere Erfahrung, wir holen immer deutlich mehr raus, als die Leute schon hatten."

Die Techniken dieser Suche sind oft einfacher, als man vermuten würde.

"Ein normaler Bibliothekskatalog, der im Web von jedem Benutzer durchsucht werden kann, ist für Google momentan nicht durchsuchbar. Die ganze Datenbank hat nur eine Adresse, und innerhalb dieser Adresse sind tausende oder Millionen von weiteren Informationen, eine Stufe tiefer gewissermaßen. Und da kommt eben Google mit den herkömmlichen Methoden nicht ran."

Ein Beispiel: Man gibt das Wort Bibliothek in die Suchmaschine ein. Der erste Treffer führt auf die Seite der Deutschen Nationalbibliothek. Besucht man sie, findet man natürlich nicht sofort alle Bücher, die der Katalog enthält. Man muss erst über eine Suchmaske nach Autor, Titel oder Stichwort suchen oder sich zu den verschiedenen Sammlungen der Bibliothek weiterklicken.

Diese Schritte kann man aber nur selbst machen; die Suchmaschine ist nicht in der Lage, der Benutzerführung zu folgen. Beinahe jeder, der öfter im Internet surft, war also schon im Deep Web, der Bibliothekskatalog ist nicht das einzige Beispiel.

"Das Telefonbuch, das normale Telefonbuch ist auch so ’ne Art Invisible Web, man muss erst zur Telekom gehen, und dann kann man im Telefonbuch suchen, wenn ich ’ne Rufnummer suche."

Schon die Treffer der Suchmaschine liefern ein verwirrendes Kuddelmuddel. Das gleiche Durcheinander findet sich auch im Deep Web wieder: Pornografie, Reklame, Privates, Tauschbörsen. Es gibt Inselseiten, auf die von keiner anderen Seite verwiesen wird, Suchmaschinen wie Google brauchen diese Verweise, um sie zu erfassen.

Andere Seiten bestehen lediglich aus Audio, Bild- oder Videodateien, zum Beispiel eine NASA-Seite mit Fotos von der Sonnenatmosphäre. Es existiert kein Schlagwort, das diese unzähligen Bilder erfassbar macht. Wieder andere können nur durch Passworte erreicht werden oder sind kostenpflichtig. Sie alle fallen durchs Raster der Suchmaschinen.

Was aber hat es mit Bergmanns spektakulärem Faktor 550 auf sich? Philipp Mayr forscht am Bonner Informationszentrum für Sozialforschung über Suchtechnologien. Er hat sich Bergmanns Schätzmethode genauer angeschaut und einen Berechnungsfehler nachgewiesen, der diese hohe Zahl sehr unwahrscheinlich macht. Und er hat noch eine andere Beobachtung gemacht, die das Größenverhältnis relativiert.

"Die ersten beiden Seiten, die er sozusagen seiner Analyse zugrunde gelegt hat, Webseiten, das waren Wetteraufzeichnungsdaten, also so Wolkenbilder, und solche Seiten gibt es nach wie vor, und die werden sicherlich auch ausgeschlossen."

Diese Wetterdaten waren schon damals, im Jahr 2001, zusammen über 500.000 Gigabyte groß. Es sind Satellitenaufnahmen, die in Echtzeit eingestellt werden und die nur Wissenschaftler auswerten können. Von Suchmaschinen können sie prinzipiell nicht erfasst werden. Sehr viele Daten im Deep Web sind also solche, die sich einfach keinem Stichwort zuordnen lassen.

Alle, die genauer recherchieren wollen, müssen also andere Suchmethoden finden. Wie aber kommt man rein ins unsichtbare Netz? Den meisten Erfolg hat der, der die richtigen Datenbanken kennt.

"Es gibt Faktendatenbanken in den Naturwissenschaften, in den Geisteswissenschaften; wir haben im Moment ungefähr 350 im Angebot hier bei uns, die einzeln durchsuchbar sind, die aber nicht über Google durchsuchbar sind. Das sind Teile dieses Invisible Webs."

Doch auch Suchmaschinenentwickler arbeiten an der Erschließung des Deep Web: Zum Beispiel mit Google Scholar, dem wissenschaftlichen Ableger von Google.

"Google Scholar hat mit den großen Verlagen, wissenschaftlichen Verlagen gesprochen, und es ist so gegangen, dass die den Suchrobotern von Google erlaubt haben, die Inhalte zu indexieren und damit sichtbar zu werden."

Damit sind zugleich Vorteile und Nachteile benannt, Google Scholar bietet viele Aufsätze, die das "normale" Google nicht hat, aber bestimmte Verlage sind darin überrepräsentiert. Etliches fehlt, und der Stand ist nicht immer der neueste. Ein anderes Projekt ist die an der Universität Bielefeld entwickelte Suchmaschine BASE-Search, sie analysiert verschiedene Fachdatenbanken. Am einfachsten wäre es natürlich, man könnte statt Stichworten einfach eine Frage in die Suchmaschine eingeben: Wie wird das Wetter morgen? Solche Techniken stecken aber erst in den Anfängen.

"Die richtige Information zu selektieren, das ist ’ne ganz schwierige Sache. Da muss man genau wissen, was man will."

Google hat in vielen Köpfen die Illusion festgesetzt, mit der simplen Eingabe eines Stichwortes könne man die Weisheit der Welt aus dem Internet saugen. Das unsichtbare Netz zeigt, dass die Dinge komplizierter liegen, auch die beste Suchsoftware kann nicht Erfahrungswissen und Fingerspitzengefühl bei der Recherche ersetzen. Letztlich ist die elektronische Welt des Internets, ob sichtbar oder unsichtbar, auch nicht so viel anders als die wirkliche Welt: Sich darin zu orientieren ist eine Lebensaufgabe.