Tak się składa, iż roboty wyszukiwarek indeksują wszystko jak leci, również rzeczy których nie chcemy aby były indeksowane. Znam także sytuacje że robot google- ten co indeksuje obrazki, potrafi nabić kilka ładnych GB transferu w ciągu miesiąca. Do zapanowania nad tym wszystkim służy plik robots.txt. W tymże pliku spisujemy ustawienia przeznaczone dla robotów. Ustawienia te precyzyjnie mówią co ma nie być indeksowane. Robot wchodząc na stronę pierwsze sprawdza zawartość pliku, a dopiero później zabiera się za indeksowanie.
Przykładowy plik robots.txt wygląda tak :
User-agent: *
Disallow: /admin/
Disallow: /pozycjoner/Pierwsza linia mówi, jakich robotów tyczy się poniższy zapis (* oznacza wszystkie )- obecnie robotów jest coś około 30 i dla każdego możemy stworzyć zapis co ma omijać przy indeksacji. Linie 2 i 3 to nic innego, jak konkretne katalogi na serwerze które maja zostać pominięte przy indeksacji- i tu uwaga, nie można tu stosować ” _ ” - trzeba wszystko wypisać.
I Oto cala filozofia robots.txt…
Poniżej kilka przykładów :
Indeksuj wszystko- to samo jak jest pusty plik robots.txt, lub gdy go nie ma
User-agent: *
Allow:Nie indeksuj niczego- przy czymś takim nie zobaczymy strony w żadnej wyszukiwarce
User-agent: *
Disallow: /Webcrawler nie indeksuje niczego- reszta wszystko
User-agent: WebCrawler
Disallow: /Pozwalamy na indeksacje tylko WebCrawlerowi
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /Niech google nie indeksuje obrazków- pozwala czasami zaoszczędzić transfer, kosztem braku obrazków w google images
User-agent: Googlebot-Image
Disallow: /obrazki/Nic tylko testować :)
Przydatne linki : Robotstxt.org
To jest archiwum - ten wpis pochodzi z lat 2010-2015