Plik robots.txt to prosty plik tekstowy, który może mieć kluczowe znaczenie dla sposobu w jaki roboty wyszukiwarek skanują daną domenę. Jeśli chcesz wiedzieć, jak działa i dlaczego jest ważny dla pozycji Twojej strony w Google, czytaj dalej.
Czym jest plik robots.txt?
Plik robots.txt jest małym plikiem tekstowym znajdującym się w głównym katalogu strony internetowej (adres URL pliku powinien wyglądać tak: https://example.com/robots.txt). Jest to plik, który zawiera instrukcje dla botów określające, które zasoby witryny internetowej mogą być skanowane, a które są dla nich zablokowane. Plik ten jest również znany jako “Robots Exclusion Protocol”.
Prawidłowa konfiguracja robots.txt
Podczas tworzenia pliku należy pamiętać o stosowaniu właściwej składni. W pierwszej kolejności musimy określić jakich botów ma dotyczyć zestaw reguł. W tym celu stosuje się oznaczenie user-agent i nazwę bota, którego mają dotyczyć kolejne dyrektywy.
Przykłady:
- dla wszystkich botów
User-agent: *
- tylko dla GoogleBota
User-agent: GoogleBot
- tylko dla bota Yandexa
User-agent: Yandexbot
Następnie po wskazaniu robota powinna znaleźć się przynajmniej jedna z reguł Allow oraz Disallow (odpowiednio zezwolenie na skanowanie oraz jego blokowanie).
Korzystając z powyższej składni możemy na przykład stworzyć dyrektywy, które pozwalają na crawlowanie strony wszystkim robotom z wyjątkiem tego, który odpowiada za ocenę jakości reklam Google Ads:
User-agent: *
Allow: /
User-agent: AdsBot-Google
Disallow: /
W składni robots.txt możemy też zastosować komentarze ignorowane przez boty (po znaku #) oraz blokować konkretne końcówki adresów URL (stosując znak $ na końcu). Przykładowy zapis blokujący dostęp do wszystkich plików PDF oraz blokujący jedną z podstron rosyjskiej wyszukiwarce:
User-agent: *
Allow: /
# blokada PDFów
Disallow: /*.pdf$
# blokada Yandexa
User-agent: YandexBot
Disallow: /yandex-gorszy-niz-google.html
Dlaczego plik robots.txt jest ważny w SEO?
Plik robots.txt ma istotne znaczenie dla procesu indeksacji witryny przez wyszukiwarki internetowe. Poprawnie skonfigurowany plik może pozytywnie wpłynąć na pozycję witryny w wynikach wyszukiwania, podczas gdy jego błędna konfiguracja może prowadzić do niekorzystnych konsekwencji dla SEO.
Dzięki robots.txt i odpowiednim dyrektywom można na przykład zablokować dostęp do wewnętrznych wyników wyszukiwania serwisu czy zasobów strony mogących marnować crawl budget (co ma na celu poprawę procesu indeksacji istotnych treści).
Z kolei błędna konfiguracja może spowodować, że istotne elementy witryny nie będą indeksowane przez wyszukiwarki, co wprost prowadzi do pogorszenia widoczności. Z tego względu warto weryfikować wpływ pliku robots.txt na bota w Google Search Console (zaczynając od dedykowanego raportu znajdującego się w Ustawieniach, a następnie sprawdzając dane na temat indeksacji).
Jak ustawić plik robots.txt w WordPressie?
W WordPress plik robots.txt może być konfigurowany za pomocą większości wtyczek odpowiedzialnych za SEO. Takie rozwiązanie pozwala uniknąć typowych błędów: literówek, braku dwukropka po poszczególnych regułach czy braku odpowiedniego formatowania (jedna reguła — jedna linijka).
Niezależnie od CMS plik można również stworzyć samodzielnie i dodać go ręcznie do głównego katalogu witryny poprzez FTP. Jest to rozwiązanie dla bardziej technicznych użytkowników, aczkolwiek gwarantuje ono większą elastyczność w tworzeniu pliku robots.txt.