Stöbere oder suche gezielt nach dem, was dir gerade hilft.
robots.txt – Steuerdatei für Crawler und Suchmaschinen
Die robots.txt ist eine kleine, öffentlich zugängliche Textdatei im Hauptverzeichnis deiner Website. Sie gibt Suchmaschinen wie Google Anweisungen, welche Bereiche der Seite ihre Crawler durchsuchen (Crawling) dürfen und welche nicht. Dabei handelt es sich um Empfehlungen – Suchmaschinen können diese ignorieren, folgen ihnen aber in der Regel.
So rufst du die robots.txt einer Website auf:
Hänge einfach /robots.txt
an die Hauptadresse der Website an.
Beispiel: https://www.beispielseite.de/robots.txt
Da die Datei öffentlich ist, kann jeder sehen, welche Bereiche einer Website für Crawler freigegeben oder gesperrt sind. Das ist besonders wichtig, um:
- zu prüfen, ob wichtige Seiten versehentlich blockiert werden
- die XML-Sitemap zu finden
- zu verstehen, wie ein Betreiber sein Crawling steuert
Die robots.txt wird vor allem genutzt, um:
- bestimmte Inhalte vom Crawling auszuschließen
- die XML-Sitemap anzugeben
- den Crawling-Aufwand zu reduzieren
Beispiel einer einfachen robots.txt
User-agent: * Disallow: /intern/ Allow: / Sitemap: https://deinewebsite.de/sitemap.xml
Erklärung der Befehle
Befehl | Bedeutung |
---|---|
User-agent: * | Gilt für alle Crawler. |
Disallow: /intern/ | Ordner „/intern/“ wird vom Crawling ausgeschlossen. |
Allow: / | Alle anderen Inhalte dürfen gecrawlt werden. |
Sitemap: | Verweis auf die XML-Sitemap, damit Crawler die wichtigsten Seiten direkt finden. |
Tipp: Die robots.txt sollte gut überlegt sein. Sperrst du zu viele Bereiche, könnte wichtige Inhalte nicht in der Indexierung erscheinen. Nutze sie also gezielt, um unnötiges Crawling zu vermeiden, ohne deine Sichtbarkeit zu gefährden.