06.11.2006 16:46
Technorati ist das Microsoft unter den Blogsuchmaschinen. Vieles funktioniert überhaupt nicht so, wie man es sich erwarten würden, dennoch kommt man kaum daran vorbei.
Im Gegensatz zu vielen anderen Suchmaschinen begnügt sich Techorati nicht damit, die RSS-Feeds zu indizieren, sondern interpretiert mittels einer Heuristik auch die HTML-Seiten selbst. Was gut klingen mag, scheitert in der Praxis aber ziemlich kläglich. So wird etwa die richtige Zuordnung von Überschriften und Artikeltext zum Glücksspiel, obwohl Technorati mit dem Feed Zugriff auf strukturierte XML-Daten hätte, und diese teilweise, etwa für die Tags, auch benutzt. Aber selbst die von Technorati empfohlene Methode, die permanenten Links speziell zu präparieren führt zu keinem befriedigenden Ergebnis.
Nicht nur bei der Behandlung von XML sondern auch bei der Interpretation
von HTTP-Statuscodes zeigt sich Technoratis Bot besonders unintelligent.
Greift Technorati etwa irrtümlicherweise auf die Ressource
/artikel zu, antwortet der Webserver mit Statuscode »301 Permanently moved« und leitet zu /artikel/ weiter. Das hält Technoratibot
aber nicht davon ab, von der nicht existenten Ressource /artikel dem falschen Link <A href="rss"> zu folgen, was ohne Begleitmaßnahmen zu einem »404 Not Found« führt.
Die E-Mail-Adresse ist optional und wird nicht veröffentlicht.