Wyższy standard skuteczności
Blog
Informacje z branży i życia firmy
Wybierz dziedzinę

Robots.txt - plik z instrukcjami dla robotów sieciowych

Opublikowano: 13-09-2016
Czas potrzebny do przeczytania: 4:35 min
Robots.txt - Plik do kierowania ruchem robotów sieciowych

 

Każda infrastruktura sieciowa czy drogowa, niezależnie od tego czy poruszają się po niej ludzie czy programy komputerowe, wymaga stworzenia określonej sygnalizacji. Na jej podstawie użytkownicy będą wiedzieć: jak i którędy się poruszać. Plik robots.txt można zatem porównać do prawidłowo oznakowanego węzła drogowego, który kieruje roboty sieciowe na pożądane przez nas obszary, poprzez blokowanie dostępu do wybranych zasobów naszej witryny.

 

 

Najprościej rzecz ujmując, plik robots.txt stanowi jeden z elementów Robots Exclusion Protocol, mechanizmu, który informuje automaty (roboty) sieciowe, czego mają nie robić na stronie internetowej podczas jej indeksowania. Utworzyć go można w najprostszym edytorze tekstowym, na przykład doskonale wszystkim znanym notatniku (Program Word się do tego nie nadaje!).

 

Czy optymalne stworzenie pliku robots.txt jest ważne dla mojej witryny?

 

Przeszukując sieć i zbierając informacje na temat pliku robots.txt, jego istoty, struktury i znaczenia, napotkałem na wcale nie tak małą liczbę opinii, iż nie pełni on wcale tak ważnej roli, a niektórzy mówią nawet o tym, że jeśli chcemy aby cała nasza witryna była indeksowana, to tworzenie robots.txt nie jest konieczne.

 

Podczas tworzenia tego artykułu (jak i dwóch poprzednich) pochłonąłem ogromną ilość informacji na ten temat. Dlatego z pełną odpowiedzialnością mogę stwierdzić, że jest to opinia zupełnie nietrafiona.


Plik robots.txt odgrywa bardzo ważną rolę, gdyż dzięki niemu możemy modernizować naszą witrynę bez obaw, że elementy niegotowe jeszcze w 100%, nie zostaną zaindeksowane. Moją opinię na ten temat potwierdza nasz specjalista ds. pozycjonowania Przemysław Michałek, który zapytany o rolę pliku robots.txt odpowiedział:

 

„Pod kątem promocji witryny w Internecie plik robots.txt jest ważny. Istotne jednak aby był on prawidłowo skonfigurowany, gdyż nieumiejętne blokowanie serwisu lub jego fragmentów przed indeksowaniem może wykluczyć naszą stronę z wyścigu o najwyższe pozycje.


Ponadto, zdarzały się przypadki kiedy brak pliku robots.txt został zinterpretowany jako błąd serwerowy, co może z kolei zaowocować błędnym indeksowaniem strony, lub nawet, w ekstremalnych przypadkach, usunięciem serwisu z wyników wyszukiwania.


W związku z powyższym zalecamy utworzenie pliku robots.txt.

 

Tezę o dużej roli pliku robots.txt potwierdza także Google w swoich oficjalnych wskazówkach dla webmasterów. Możemy się tam dowiedzieć, że „optymalnie ustawiony zapobiega przeciążeniom serwera związanym z wizytą robota, a także nie marnuje czasu robota na indeksowanie niepotrzebnych podstron/elementów strony”.

 

Jak sprawdzić czy nasza witryna w ogóle posiada plik robots.txt?

 

Wystarczy wpisać jej adres wyszukiwarkę i dodać „/robots.txt”. Google w swoich narzędziach dla webmasterów udostępnia narzędzie „Tester pliku robots.txt”, dzięki któremu możemy sprawdzić czy plik jest poprawnie stworzony i zapisany.

 

Jak stworzyć dobry plik robots.txt

 


Tzw. „stara szkoła”, tworzenia robots.txt mówiła o tym, że blokujemy przed wejściem robotów wszystkie inne zasoby niż strony internetowe. Innymi słowy, nakazujemy robotowi tylko chodzenie po stronach html. Obecnie jednak, wyszukiwarka Google odczytuje cały wygląd strony. Dlatego też, robot powinien mieć dostęp do wszystkich zasobów witryny, również takich jak pliki stylów, skryptów czy obrazków. Powinniśmy w miarę możliwości unikać blokowania tych elementów, gdyż  może to wpłynąć negatywnie na pozycje naszej witryny.


A zatem w tworzeniu dobrego pliku robots.txt kluczowe jest, aby doprowadzić do sytuacji, w której robotowi sieciowemu wyświetla się identyczna zawartość strony, jak każdemu użytkownikowi, który ją odwiedzi. 

 

Tworząc plik robots.txt mamy do wykorzystania kilka poleceń (w fachowej terminologii: dyrektyw), które będą kierować ruchem robota sieciowego. Ich zapisywanie rozpoczynamy od polecenia „User-agent:” i po dwukropku wpisujemy nazwę robota sieciowego, lub też gwiazdkę „*”, która odnosi się do wszystkich automatów. Po poleceniu "User-Agent", wpisujemy kolejne (nie należy nad każdym z nich powielać "User-Agent" - to polecenie wpisane raz "na górze" wystarczy).

 

Najczęściej stosowane polecenia to: 

 

1.    Allow - Pozwalające na indeksowanie konkretnego pliku, folderu lub też całego serwisu;

2.    Disallow – Zabraniające indeksowania wskazanych zasobów naszej strony (przykłady poniżej);

3.    Disallow: /directory/ (lub dowolny inny folder) – Zabraniające indeksowania wybranych folderów;

4.    Disallow: /directory/file.html (lub dowolny inny plik) – Zabraniające indeksowania konkretnego pliku z wybranego folderu.

 

giphy.com

 

Ważne jest także aby pamiętać o zachowaniu prawidłowych odstępów pomiędzy poszczególnymi poleceniami w pliku tekstowym. Prawidłowo stworzony plik robots.txt należy zapisać na dysku naszego komputera, a następne przenieść do katalogu głównego naszej domeny. Roboty sieciowe będą w stanie odnaleźć plik robots.txt tylko wtedy, jeśli jego adres URL będzie prawidłowy, np.: http://www.domena.com/robots.txt.

 

Nazwa pliku tekstowego musi zawsze zostać zapisana po rozszerzeniu naszej witryny, bez żadnych innych elementów pomiędzy rozszerzeniem a robots.txt, dokładnie w taki sposób jak powyżej.  

 

O czym jeszcze należy pamiętać w przypadku robots.txt?

 

moz

 

1. Prawidłowe umieszczenie pliku w katalogu głównym naszej domeny:

 

- nazwa pliku małymi literami,

- bez polskich znaków w nazwie pliku.

 

2. Odpowiednie zabezpieczenie pliku:


- w taki sam sposób jak wszystkie inne pliki zapisane na naszym serwerze FTP,

- wykorzystując do tego pliki .htaccess oraz .htpasswd.

 

Do treści pliku robots.txt mają dostęp wszyscy użytkownicy Internetu. Jego zabezpieczenie znacznie minimalizuje ryzyko jego edytowania przez spamerów i oszustów.

 

3. Nie traktować robots.txt jako sposobu na blokowanie witryny przed indeksowaniem:

 

 - błędem jest nadużywanie polecenia "Disallow" i traktowanie go jako jedynego sposobu na blokadę zawartości przed indeksowaniem,

 

- roboty sieciowe nie zaindeksują zawartości samej podstrony ale mogą zaindeksować zablokowane w robots.txt adresy URL, jeżeli natrafią na nie w innych miejscach sieci - w rezultacie adresy te mogą wciąż wyświetlać się w wynikach wyszukiwania,

 

- blokując podstronę, blokujemy także linki do niej przychodzące, przez co tracimy możliwość przekazywania wartości danego linku.

 

Reasumując, plik robots.txt odgrywa ważną rolę w procesie pozycjonowania strony w wyszukiwarkach internetowych. Jego samodzielne opracowanie wydaje się nie być szczególnie trudne, jednak optymalizacja pliku tekstowego, to czynność, która wymaga wiedzy oraz doświadczenia. Aby nie popełnić błędów, które później trudno będzie odkręcić, warto zaufać w tej kwestii profesjonalistom.

 

Źródła: support.google ; moz ; robotstxt

Autor
Łukasz Faliszewski
Ocena artykułu
4.83 - (6 głosów)
Komentarze
Dodaj komentarz
Ostrzeżenie: Uwaga na firmę o podobnej nazwie! Więcej...
Zapoznałem się