DIE.DE: Jetzt mit besserer Suche


Thomas Wölfer
Thomas Wölfer

02. April 2012


Die Suche auf www.die.de war schon immer ein Problem: vor gaaaanz langer Zeit spielte das keine Rolle, weil die erste Version der Site (1996) ungefähr 5 Seiten hatte…

Die Anzahl der Seiten hat aber stark zugenommen: Aktuell befinden sich circa 5000 Seiten mit “echtem” Inhalt auf dem Server – es gibt also 5000 Seiten, wenn man so was wie die Monatsübersichten und die Bereichsübersichten der Blogs nicht mitzählt.

Darum hatte ich schon vor längerer Zeit einen Suchmechanismus eingebaut. Ursprünglich wurde da einfach Google verwendet, nach dem letzten Umbau vor ein paar Jahren habe ich dann statt dessen Bing (per Bing-API) eingebaut.

Das Problem dabei: Sowohl Google als auch Bing (yahoo, ASK, DuckDuckGo, …) indizieren schlicht und ergreifend nicht alle Seiten – und darum findet man auch nicht alles. Um genau zu sein hat Google zur Zeit ca. 1000 unserer Seiten im Index, Bing hat ca. 700.

Ich habe mich also auf die Suche nach Alternativen gemacht, und zum Beispiel so Angebote wie ZoomSearch gefunden: Die sind auch teilweise recht gut, haben mich aber trotzdem alle nicht so recht überzeugt. Das, was mich noch am meisten angesprochen hat war der Search Server Express. Der lässt sich aber nicht wirklich “einfach so” in eine bestehende Website integrieren: Das ist zwar wohl so gedacht, aber in der Praxis wird empfohlen, das ganze zunächst auf einem “neu installierten” Server aufzusetzen. Das geht im Fall von die.de aber nicht – und ich habe es dann auch nicht geschafft, den Server bei die.de installiert zu bekommen. War einfach nicht zu machen…

Aber es war ja Wochenende - Zeit, die Sache einfach mal selbst anzupacken. Darum gibt es seit heute einen eigenen Spider (der die.de “abklappert”), einen Indexer (der den Index für die Seiten baut) und einen neuen Suchmotor, der hinter dem “Suchen” Feld auf der Startseite liegt.

Der sollte nun eigentlich fast alles finden – es gibt zwar noch ein paar Feinheiten die gemacht werden müssen, aber im großen und ganze kann man nun alle Seiten von die.de mit der Suche durchsuchen.

Die Suche selbst kann zur Zeit keinerlei Operatoren: Das ist aber keine echte Einschränkung, da in den letzten 3 Jahren (in denen wir alle durchgeführten Suchen mitprotokolliert haben) auch noch nie jemand versucht hat, sowas zu verwenden. Statt dessen liefert die Suche alle Seiten, in denen alle eingegebenen Suchworte (oder andere Stammformen dieser Worte) enthalten sind.

Ab morgen weiss ich dann auch, ob das automatische neu-indizieren funktioniert (denn der Spider/Indexer läuft immer erst nachts.)