Robots.txt

Czasami mając serwis z dużą ilością fotek nagle coś zaczyna nam zjadać bezcenny transfer, lub czasami nagle ni z tego ni z owego znajdujemy w google linki, które nie powinny sie tam znaleźć (np. do części administracyjnej serwisu). W poniższym artykule o tych przypadłościach, oraz krótki tutorial jak nad tym zapanować.

Tak się składa, iż roboty wyszukiwarek indeksują wszystko jak leci, również rzeczy których nie chcemy aby były indeksowane. Znam także sytuacje że robot google- ten co indeksuje obrazki, potrafi nabić kilka ładnych GB transferu w ciągu miesiąca. Do zapanowania nad tym wszystkim służy plik robots.txt. W tymże pliku spisujemy ustawienia przeznaczone dla robotów. Ustawienia te precyzyjnie mówią co ma nie być indeksowane. Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.

Przykładowy plik robots.txt wygląda tak :

PLAINTEXT
User-agent: *
Disallow: /admin/
Disallow: /pozycjoner/

Pierwsza linia mówi, jakich robotów tyczy się poniższy zapis (* oznacza wszystkie )- obecnie robotów jest coś około 30 i dla każdego możemy stworzyć zapis co ma omijać przy indeksacji. Linie 2 i 3 to nic innego, jak konkretne katalogi na serwerze które maja zostać pominięte przy indeksacji- i tu uwaga, nie można tu stosować ” _ ” - trzeba wszystko wypisać.

I Oto cala filozofia robots.txt…

Poniżej kilka przykładów :

Indeksuj wszystko- to samo jak jest pusty plik robots.txt, lub gdy go nie ma

PLAINTEXT
User-agent: *
Allow:

Nie indeksuj niczego- przy czymś takim nie zobaczymy strony w żadnej wyszukiwarce

PLAINTEXT
User-agent: *
Disallow: /

Webcrawler nie indeksuje niczego- reszta wszystko

PLAINTEXT
User-agent: WebCrawler
Disallow: /

Pozwalamy na indeksacje tylko WebCrawlerowi

PLAINTEXT
User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /

Niech google nie indeksuje obrazków- pozwala czasami zaoszczędzić transfer, kosztem braku obrazków w google images

PLAINTEXT
User-agent: Googlebot-Image
Disallow: /obrazki/

Nic tylko testować :)

Przydatne linki : Robotstxt.org


Dzięki za przeczytanie!

To jest archiwum - ten wpis pochodzi z lat 2010-2015