In die dunkle und riesige Tiefsee des Web tauchen

Normale Suchmaschinen sollen nur 0,03 Prozent der Webinhalte erfassen

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Die öffentlich zugänglichen Informationen im Web seien 500 Mal mehr als die Menge der Seiten, von der man bislang ausgegangen ist. Bekannt ist, dass die Suchmaschinen nur einen mehr oder weniger großen, eigentlich eher kleinen Umfang der Dokumente im Web erfassen. Und die Menge der indexierten Seiten sinkt mit dem Wachstum des Web weiter ab. Jetzt aber macht sich ein Unternehmen anheischig, mit einem Verfahren auch das "tiefe" Web zu erfassen, das normalen Suchmaschinen unzugänglich sei.

Nicht gerade unbescheiden nennt sich das Unternehmen nicht nur Bright Planet, sondern auch Complete Planet, das mit LexiBot die "erste und einzige" Suchtechnik anbietet, um neben dem "Oberflächenweb", das die anderen Suchmaschinen umfassen, auch die Inhalte des "tiefen" Web identifizieren, qualifizieren und organisieren zu können.

Die Suche im Web vergleicht Complete Planet damit, ein Netz über die Oberfläche des Ozeans zu ziehen. Dadurch aber entgeht der Suche alles, was in der Tiefe ist. Angeblich würden die Suchmaschinen nur 0,03 Prozent der an sich vorhandenen Informationen erfassen, selbst beim Oberflächenweb weisen sie riesige Lücken auf. Grund sei, dass sie sich seit dem Beginn des Web nicht wirklich weiter entwickelt hätten. Sie "crawlen" oder "spidern" normalerweise durch das Oberflächennetz und können nur Seiten erfassen, die statisch und mit anderen verlinkt sind. Was in der Tiefe liegt, bleibe ihnen verborgen, zumal auch das Web nicht überall nach der Fliegentheorie eng vernetzt ist. Sport wird beispielsweise besser indexiert als Quantenphysik. Allerdings wird die Schwäche der Suchmaschinen dadurch ein wenig kompensiert, dass Websites angemeldet werden können.

Und dort ruhen natürlich die größten Schätze, verspricht Complete Planet. Mengenmäßig allein gebe es dort mit 7500 Terabytes an Informationen wesentlich mehr als die kargen 19 Terabytes des Oberflächenweb. Das seien 550 Milliarden Dokumente, anstatt der geschätzten eine Milliarde. Diese Dokumente befinden sich auf etwa 100000 Websites, von denen die 60 größten alleine schon 750 Terabytes an Informationen anbieten. Durchschnittlich würden die Websites in der Tiefe monatlich 50 Prozent als Websites auf der Oberfläche besucht werden, sie seien auch besser miteinander verlinkt, "aber die typische tiefe Website ist der suchenden Internetöffentlichkeit kaum bekannt."

Im tiefen Web kann man alles finden, was man braucht, verspricht Complete Planet, weswegen unbedingt LexiBot notwendig wird, das Web-U-Boot gewissermaßen: 30 Tage kostenlos zum Testen, dann 89,95 US-Dollar. Und schnell ist das Boot auch nicht gerade, sondern tuckert eher gemächlich durch die Tiefe des Datenozeans. Zwischen 10 Minuten und einer halben Stunde kommen da normalerweise schon zusammen, manchmal auch über eine Stunde. Das muss sich also schon lohnen. Da unten, wohin wir mit unseren Suchmaschinen nicht schauen können und nur zufällig hingeraten, vermehrt sich die Informationsmenge schnell, gibt es viele spezifische Informationen, zumal sich die Hälfte der Tiefeninformationen in spezifischen Datenbanken befindet - und sind 95 Prozent der Informationen frei und kostenlos zugänglich. Das freut nicht nur den Geschäftsmann, der gerne billig holt und teuer verkauft.