Das Kreuz mit der Suche


Thomas Wölfer
Thomas Wölfer

22. Februar 2006


Auf www.die.de befinden sich einige tausend Dokumente, mit lauter Inhalten rund um die Baustatik und unsere Statikprogramme. Eine zeitlang haben wir versucht, die MSN- und die Google-Suche dafür einzusetzen. In beiden Fällen hat sich aber nach einigen Wochen herausgestellt, das die Searchengines einfach nicht gut genug funktionieren: Einige Texte von denen wir wussten, das Sie auf der Seite vorkommen, wurden erst gar nicht gefunden. Bei anderen wurden falsche Dokumente - teilweise auch nur weniger relevante - als Resulat geliefert. Alles in allem einfach nicht das, was wir uns für die Suche auf www.die.de vorgestellt hatten.

Jetzt sind wird wieder beim Microsoft Index Server angekommen. Der Index-Server ist bei den Windows-Servern (und auch bei XP Pro) von Haus aus dabei, und kann eine Vielzahl von Dokumenten indizieren, und diese so durchsuchbar machen. Das klappt auch mit den "normalen" Inhalten auf www.die.de ganz gut. Dazu zählen die Programmbeschreibungen, die Tutorials, die Liste der häufig gestellten Fragen und andere Dokumente.

Nicht besonders gut klappt die Sache aber mit den Blog-Einträgen. "dasBlog", so heist die Software die wir hier verwenden, legt die Blog-Einträge in XML-Dateien ab. Wird ein Eintrag angefordert, das liest "dasBlog" die zugehörige XML-Datei aus, und stellt den darin abgelegen Inhalt dar. Davon weiss der Index Server natürlich nichts: Für ihn handelt es sich bei XML-Dateien von Haus aus einfach nur um Textdateien. Die indiziert er - und wenn man dann darin sucht, dann erhält man recht merkwürdige Resultate: Nämlich das XML mit allem drum und dran, statt den eigentlichen Inhalt.

Dankbarerweise kann der Index-Server aber auch erweitert werden, und zwar mit dem IFilter-Interface. Wie das im einzelnen geht, wäre an dieser Stelle ein bisschen zu technisch. Im Wesentlichen läuft es aber darauf hinaus, das man eine DLL installiert, die für das indizieren spezieller Dateitypen zuständig gemacht wird. Die DLL ist dann dafür zuständig, den Index-Server mit "vernünftigen" Daten zu versorgen. Der Server schaut also selbst nicht länger in eine Datei hinein, die von einem IFilter betreut wird.

Von diesen IFiltern gibt es eine ganze Menge. Ich hatte mir zunächst überlegt, für unseren Fall - also für die dasBlog XML-Dateien - einen eigenen IFilter zu programmieren, stellte dann aber fest, das es bereits einen fertigen gibt. Der tut (fast) genau das, was man fürs durchsuchen von "dasBlog" benötigt - und kostet auch nicht besonders viel. Darum nehmen wir seit gestern den IFilter von QuiLogic.

Die Suche auf der Startseite von www.die.de. liefert nun wieder "vernünftige" Ergebnisse - und sucht auch in den Blogeinträgen.