blog pozycjoner net pozycjoner.net forum o pozycjonowaniu
blog.pozycjoner.net
      delicious   rss   



Szukaj


Polecamy















Robots.txt


Tak się składa, iż roboty wyszukiwarek indeksują wszystko jak leci, również rzeczy których nie chcemy aby były indeksowane.
Znam także sytuacje że robot google- ten co indeksuje obrazki, potrafi nabić kilka ładnych GB transferu w ciągu miesiąca.
Do zapanowania nad tym wszystkim służy plik robots.txt.
W tymże pliku spisujemy ustawienia przeznaczone dla robotów. Ustawienia te precyzyjnie mówią co ma nie być indeksowane. Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.

Przykładowy plik robots.txt wygląda tak :

User-agent: *
Disallow: /admin/
Disallow: /pozycjoner/



Pierwsza linia mówi, jakich robotów tyczy się poniższy zapis (* oznacza wszystkie )- obecnie robotów jest coś około 30 i dla każdego możemy stworzyć zapis co ma omijać przy indeksacji.
Linie 2 i 3 to nic innego, jak konkretne katalogi na serwerze które maja zostać pominięte przy indeksacji- i tu uwaga, nie można tu stosować " * " - trzeba wszystko wypisać.

I Oto cala filozofia robots.txt...

Poniżej kilka przykładów :

Indeksuj wszystko- to samo jak jest pusty plik robots.txt, lub gdy go nie ma

User-agent: *
Disallow:


Nie indeksuj niczego- przy czymś takim nie zobaczymy strony w żadnej wyszukiwarce

User-agent: *
Disallow: /



Webcrawler nie indeksuje niczego- reszta wszystko

User-agent: WebCrawler
Disallow: /



Pozwalamy na indeksacje tylko WebCrawlerowi

User-agent: WebCrawler
Disallow:

User-agent: *
Disallow: /


Niech google nie indeksuje obrazków- pozwala czasami zaoszczędzić transfer, kosztem braku obrazków w google images

User-agent: Googlebot-Image
Disallow: /obrazki/


Nic tylko testować :)

Przydatne linki :
Robotstxt.org












Wszystkie prawa zastrzeżone © 2006,07,08,09,10,11 www.pozycjoner.net