Robots.txt – en introduktion

Skribent:

2013-02-06 16:09
Sökmotoroptimering

Kanske har du tidigare hört talas om robots.txt? Det är en liten text-fil som placeras i root-foldern på din webbsida (www.exempelsajt.se/robots.txt) vars syfte är att tala om för bland annat sökmotorers robotar vilka delar de får, och inte får besöka på din webbplats. Många större webbplatser använder sig av robots.txt, exempelvis Amazon, Ebay och Aftonbladet.

Det vanligaste användningsområdet för robots.txt är att blockera sökmotorer ifrån att besöka vissa delar av din webbplats.

En robots.txt-fil kan se ut som följer

User-agent: *
Disallow: /hemligsida.html

Koden ovan upplyser sökmotorers robotar att inte besöka sidan hemligsida.html. Stjärnan (*) visar att regeln nedanför gäller samtliga spindlar. Du kan också välja att blockera en hel mapp. Det gör du genom att använda dig av slash-tecknet (“/“) och ingen filändelse. Om vi exempelvis ska blockera samtliga robotar från att besöka mappen “admin” skriver vi:

User-agent: *
Disallow: /admin/

Du kan emellertid välja att tillåta spindlar att besöka ett visst dokument under en mapp som du annars har begränsat åtkomsten till. Om du exempelvis vill begränsa åtkomsten till mappen admin men tillåta åtkomst till ett dokument med namn tillaten.html så skulle en sådan kod se ut så här.

User-agent: *
Disallow: /admin/
Allow: /admin/tillaten.html

Googles huvudsakliga sökmotorspindel heter googlebot men företaget har även flera andra robotar, uppdelade per tjänst. De är ofta enkla att identifiera eftersom de vanligtvis har namn så som Googlebot-Image, Googlebot-News och Googlebot-Mobile. Här finner du namnet på samtliga av Googles spindlar.

Med hjälp av att veta namnen på Googles sökmotorspindlar kan vi begränsa tillgången för specifika spindlar men tillåta åtkomst för andra.

Koden nedan säger t.ex. till Google att hindra åtkomsten till mappen privat för googlebot och googlebot-images men tillåta google-images tillgång till dokumentet minabilder.html.

User-agent: googlebot
Disallow: /privat/
User-agent: googlebot-images
Disallow: /privat/
Allow: /privat/minabilder.html

Det är inte ovanligt att se hur en robots.txt i slutet innehåller en hänvisning till en sidkarta (sitemap), ofta i xml-format.

Sitemap: http://www.amazon.com/sitemap-manual-index.xml

Raden ovan talar om för Google och de andra sökspindlarna att de kan hitta Amazons sidkarta i xml-format på adressen http://www.amazon.com/sitemap-manual-index.xml.

Ett varningens ord

Etiska spindlar tar hänsyn till reglerna i robots.txt men det finns även de som inte gör det, likaså vissa vanligt förekommande SEO-program.

Ett exempel på sådant är Screaming Frog SEO Spider där du kan välja att låta programmet ignorera robots.txt-filer.

SEO-program ignorerar robots.txt

Många som säljer digitala produkter, exempelvis e-böcker, blockerar tillgången till foldern där dessa går att ladda ned utan att tänka på att robots.txt-filen är fritt åkomlig för vem som helst via en vanlig web browser. Se därför till att aldrig använda dig av din robots.txt för att skydda viktigt innehåll utan använd andra lösningar, exempelvis lösenordsskydd, istället.

Om du vill lära dig mer om robots.txt-filer så skriver Google om ämnet på sin webbplats hjälpcenter för webbansvariga.

 

Diskutera i sociala medier!