<?xml version="1.0" encoding="iso-8859-1" ?>
<?xml-stylesheet title="XSL_formatting" type="text/xsl" href="http://www.leckse.net/styles/rss2"?>
<rss version="2.0" 
   xmlns:html="http://www.w3.org/1999/html" 
   xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" 
   >
<channel>
   <title>leckses Artikel</title>
   <link>http://www.leckse.net/artikel/</link>
   <description>Langweilig, inkorrekt, unkritisch</description>
   <language>de</language>
   <pubDate>Mon, 06 Nov 2006 15:46 GMT</pubDate>
<item>
   <title>Dumm wie B(r)ot</title>
   <link>http://www.leckse.net/artikel/website/technorati</link>
   <description><![CDATA[<P>Technorati ist das Microsoft unter den Blogsuchmaschinen. Vieles funktioniert
überhaupt nicht so, wie man es sich erwarten würden, dennoch kommt man kaum daran vorbei.</P>
<P>Im Gegensatz zu vielen anderen Suchmaschinen begnügt sich Techorati
nicht damit, die RSS-Feeds zu indizieren, sondern interpretiert mittels einer
Heuristik auch die HTML-Seiten selbst. Was gut klingen mag, scheitert in der Praxis aber ziemlich kläglich. So
wird etwa die richtige Zuordnung von Überschriften und Artikeltext zum
<A href="http://www.technorati.com/blogs/www.leckse.net/artikel/" class=extern>Glücksspiel</A>, obwohl Technorati mit dem Feed Zugriff auf strukturierte XML-Daten hätte, und diese teilweise, etwa für die Tags, auch benutzt. Aber selbst die von Technorati empfohlene Methode, die permanenten Links <A href="http://www.technorati.com/help/faq.html#bookmark" class=extern>speziell zu präparieren</A> führt zu keinem befriedigenden Ergebnis.</P>
<P>Nicht nur bei der Behandlung von XML sondern auch bei der <A href="http://www.leckse.net/files/technoratibot">Interpretation
von HTTP-Statuscodes</A> zeigt sich Technoratis Bot besonders unintelligent.
Greift Technorati etwa irrtümlicherweise auf die Ressource
<code>/artikel</code> zu, antwortet der Webserver mit Statuscode »301 Permanently moved« und leitet zu <code>/artikel/</code> weiter. Das hält Technoratibot
aber nicht davon ab, von der nicht existenten Ressource <code>/artikel</code> dem falschen Link <code><span class=tag>&lt;<SPAN class=element>A</SPAN> <SPAN class=attribut>href</SPAN>=<SPAN class=value>"rss"</SPAN>&gt;</SPAN></CODE> zu folgen, was ohne Begleitmaßnahmen zu einem »404 Not Found« führt.</P> 
]]></description>
   <pubDate>Mon, 06 Nov 2006 15:46 GMT</pubDate>
   <guid>http://www.leckse.net/artikel/website/technorati</guid>
   <author>leckse &lt;leckse@gmx.net&gt;</author>
   <category>blogosphere</category>
</item>
</channel>
</rss>
