Robots.txt to specjalny plik tekstowy umieszczany w głównym katalogu strony internetowej, który informuje roboty wyszukiwarek (tzw. crawlery lub boty), jakie części witryny mogą przeszukiwać i indeksować, a które są dla nich niedostępne.
Jest to narzędzie służące do kontrolowania, które strony lub pliki mają być widoczne w wynikach wyszukiwania, a które nie.
Spis treści
Jak działa plik robots.txt?
Kiedy robot Google lub innej wyszukiwarki odwiedza stronę, najpierw sprawdza zawartość pliku robots.txt. Jeśli w pliku są zawarte instrukcje blokujące dostęp do określonych sekcji witryny, robot ich nie przeszukuje i nie indeksuje.
Przykładowo, jeśli nie chcesz, żeby roboty wchodziły na katalog z prywatnymi danymi lub na testową wersję strony, możesz to zablokować właśnie w robots.txt.
Dlaczego warto używać tego pliku tekstowego?
- Ochrona przed indeksowaniem poufnych lub tymczasowych danych – np. zaplecza administracyjnego, plików konfiguracyjnych, katalogów testowych.
- Optymalizacja budżetu crawl – roboty mają ograniczony czas i zasoby, dlatego blokując mniej ważne strony, pozwalasz im skupić się na najważniejszych treściach.
- Zapobieganie duplikacji treści – wykluczając z indeksacji powtarzające się lub podobne podstrony, poprawiasz jakość SEO.
- Kontrola widoczności strony w wyszukiwarkach – decydujesz, które elementy strony mają się pojawiać w wynikach wyszukiwania.
Czego robots.txt nie robi?
- Nie chroni danych przed dostępem – blokada w robots.txt to tylko sugestia dla robotów, a plik lub strona nadal jest dostępna publicznie i może być odwiedzona bezpośrednio (np. jeśli ktoś zna link).
- Nie zastępuje zabezpieczeń – do ochrony prywatnych zasobów należy stosować metody uwierzytelniania lub inne zabezpieczenia.
- Nie wpływa bezpośrednio na pozycję w Google – plik nie poprawia ani nie pogarsza rankingu strony, tylko kontroluje, co jest indeksowane.
Jak wygląda przykładowy plik robots?
Przykład prostego pliku:
User-agent: *
Disallow: /admin/
Disallow: /test/
Allow: /
- User-agent: * – dotyczy wszystkich robotów,
- Disallow: /admin/ – blokuje dostęp do folderu /admin/,
- Disallow: /test/ – blokuje dostęp do folderu /test/,
- Allow: / – pozwala na dostęp do reszty strony.
Podsumowanie
Plik robots.txt to podstawowe narzędzie do zarządzania widocznością strony dla wyszukiwarek. Dzięki niemu możesz określić, które części witryny mają być indeksowane, a które nie.
Prawidłowo skonfigurowany robots.txt pomaga w ochronie ważnych danych, optymalizacji SEO i lepszym zarządzaniu stroną internetową.

