Robots.Txt

Was ist Robots.Txt?

Was ist eine Robots.Txt?

Die Robots.Txt ist eine einfache Textdatei im Wurzelverzeichnis einer Website, mit der du Crawlern von Suchmaschinen Hinweise gibst, welche Bereiche gecrawlt werden dürfen und welche nicht. Sie steuert das Crawling, aber nicht direkt die Indexierung von Seiten.

1. Grundlagen zur Robots.Txt

Die Datei Robots.Txt ist Teil des sogenannten Robots Exclusion Standards. Sie liegt in der Regel unter https://www.deine-domain.de/robots.txt und wird von Crawlern wie Googlebot oder Bingbot als erste Anlaufstelle genutzt, um zu verstehen, welche Bereiche einer Website sie abrufen dürfen.

Für Onlineshops mit vielen Kategorien, Filtern und Produktvarianten ist eine sauber konfigurierte Robots.Txt besonders wichtig, um das Crawl-Budget zu steuern und technische SEO-Probleme zu vermeiden.

2. Zweck und Funktionsweise der Robots.Txt

Die Robots.Txt dient dazu, das Verhalten von Webcrawlern beim Abruf deiner Website zu beeinflussen. Sie ist eine reine Textdatei in einem definierten Format, die Anweisungen (Directives) für bestimmte oder alle User-Agents (Crawler) enthält.

  • Sie legt fest, welche Pfade gecrawlt werden dürfen oder nicht dürfen.
  • Sie kann auf separate Sitemaps verweisen, damit Crawler wichtige URLs schneller finden.
  • Sie beeinflusst das Crawling, nicht zuverlässig die Indexierung (das ist ein entscheidender Unterschied).
  • Sie ist öffentlich abrufbar und sollte daher keine vertraulichen Informationen enthalten.

Suchmaschinen sind grundsätzlich frei darin, wie sie die Robots.Txt interpretieren. Seriöse Crawler halten sich in der Praxis an die dort hinterlegten Regeln, technisch erzwingen kannst du das aber nicht.

3. Aufbau und Syntax der Robots.Txt

Eine Robots.Txt besteht aus Blöcken aus User-Agent-Definitionen und dazugehörigen Direktiven. Die Syntax ist bewusst einfach gehalten, damit sie leicht manuell erstellt und gepflegt werden kann.

  • User-agent: legt fest, für welchen Crawler der Block gilt.
  • Disallow: verbietet das Crawling eines Pfades.
  • Allow: erlaubt das Crawling bestimmter Pfade, oft als Ausnahme innerhalb eines verbotenen Bereichs.
  • Sitemap: verweist auf XML-Sitemaps mit wichtigen URLs.
  • Kommentare beginnen mit # und werden von Crawlern ignoriert.

3.1 Beispiel für eine einfache Robots.Txt

User-agent: *
Disallow: /intern/
Disallow: /checkout/
Allow: /intern/warenkorb-vorschau.html
Sitemap: https://www.deine-domain.de/sitemap.xml

In diesem Beispiel werden allen Crawlern (User-agent: *) bestimmte Verzeichnisse gesperrt, während eine Ausnahme für eine einzelne URL definiert ist.

3.2 Gültige Pfadangaben und Wildcards

Moderne Suchmaschinen wie Google unterstützen zusätzliche Muster, mit denen du komplexe URL-Strukturen besser steuern kannst:

  • * steht als Platzhalter für beliebige Zeichenketten innerhalb des Pfads.
  • $ markiert das Ende einer URL und wird zum Beispiel genutzt, um Dateiendungen zu filtern.
User-agent: *
Disallow: /*?sessionid=
Disallow: /*&utm_source=
Disallow: /*.pdf$

Damit kannst du zum Beispiel Tracking-Parameter oder bestimmte Dateitypen vom Crawling ausschließen, ohne alle Varianten einzeln aufzulisten.

4. Typische Einsatzszenarien der Robots.Txt im E-Commerce

In E-Commerce-Projekten mit tausenden Produkten, Filterseiten und Suchergebnissen spielt die Robots.Txt eine zentrale Rolle bei der technischen Suchmaschinenoptimierung.

  • Vermeidung von Crawling-Schleifen durch facettierte Navigation (Filter wie Farbe, Größe, Marke).
  • Ausschluss interner Suchergebnisse, die wenig Mehrwert für Nutzer von Suchmaschinen bieten.
  • Sperrung von Warenkorb-, Login- und Checkout-Seiten.
  • Steuerung von Sprach- oder Ländervarianten, wenn diese anders behandelt werden sollen.
  • Entlastung des Crawl-Budgets, damit wichtige Produkt- und Kategorieseiten möglichst häufig gecrawlt werden.
Besonders in großen Shops mit Shopware, Magento oder Shopify Plus kann eine unkontrollierte Kombination aus Filterparametern zu Millionen technisch erreichbarer URLs führen. Die Robots.Txt hilft, das Crawling gezielt auf wertvolle Seiten zu lenken.

5. Wichtige Direktiven in der Robots.Txt im Detail

5.1 User-agent

Die Angabe User-agent bestimmt, für welchen Crawler der folgende Block gilt. Der Stern * steht für alle Crawler. Du kannst auch spezifische Crawler ansprechen, zum Beispiel Googlebot oder Bingbot.

User-agent: *
Disallow: /tmp/

User-agent: Googlebot
Allow: /tmp/google-spezial/

Der spezifischere Eintrag hat Vorrang vor einem allgemeineren Eintrag. So kannst du zum Beispiel Googlebot anders behandeln als andere Crawler.

5.2 Disallow

Disallow untersagt Crawlern das Abrufen eines Pfades. Ein leerer Disallow-Eintrag bedeutet, dass alles erlaubt ist.

User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow:

Wichtig ist, dass Disallow nur das Crawling beeinflusst. Bereits bekannte URLs können weiterhin in den Suchergebnissen auftauchen, eventuell ohne Snippet und mit dem Hinweis, dass die Seite durch Robots.Txt blockiert ist.

5.3 Allow

Allow wird genutzt, um innerhalb eines gesperrten Bereichs Ausnahmen zu definieren. Gerade bei komplexen Strukturen ist das hilfreich, um einzelne Ressourcen wie CSS- oder JavaScript-Dateien freizugeben.

User-agent: *
Disallow: /assets/
Allow: /assets/css/
Allow: /assets/js/

So stellst du sicher, dass Suchmaschinen wichtige Ressourcen für das Rendering deiner Seiten abrufen dürfen, während andere Dateien gesperrt bleiben.

5.4 Sitemap

Mit dem Sitemap-Eintrag weist du Crawler auf deine XML-Sitemaps hin. Das verbessert das Auffinden wichtiger URLs und unterstützt eine effizientere Indexierung.

Sitemap: https://www.deine-domain.de/sitemap_index.xml
Sitemap: https://www.deine-domain.de/sitemap-produkte.xml

Gerade bei automatisiert generierten Produkttexten, wie sie etwa mit feed2content.ai® aus Produktfeeds erzeugt werden, ist eine saubere Sitemap-Struktur in Kombination mit einer klaren Robots.Txt ein wichtiges Fundament für skalierbare SEO.

6. Abgrenzung: Robots.Txt, Meta-Robots und Canonical

Die Robots.Txt wird häufig mit anderen Steuerungsmöglichkeiten wie Meta-Robots-Tags oder Canonical-Tags verwechselt. Diese Werkzeuge ergänzen sich, haben aber unterschiedliche Aufgaben.

Element Ebene Hauptzweck
Robots.Txt Server-/Domain-Ebene Crawling steuern
Meta-Robots Seitenebene (HTML-Head) Indexierung & Snippets steuern
Canonical-Tag Seitenebene Bevorzugte URL bei Duplikaten definieren

Wenn du eine URL in der Robots.Txt blockierst, kann Google die Seite nicht mehr crawlen und sieht auch dort vorhandene Meta-Robots- oder Canonical-Tags nicht. Für die Steuerung der Indexierung sind Meta-Robots und Canonical daher oft die bessere Wahl.

7. Best Practices für eine Robots.Txt im Onlineshop

Damit deine Robots.Txt wirtschaftlich sinnvoll arbeitet und nicht versehentlich Umsatz kostet, solltest du einige Grundregeln beachten.

7.1 Do’s: Empfohlene Regeln

  • Sperre interne Suchergebnisseiten (/search, /suche), wenn sie keine eigenständigen SEO-Ziele haben.
  • Sperre Checkout-, Login- und Kundenkontobereiche (/checkout/, /mein-konto/, /login/).
  • Nutze Disallow für technisch erzeugte Parameter-URLs ohne Mehrwert (z. B. Tracking-Parameter).
  • Erlaube Ressourcen wie CSS und JavaScript, damit Suchmaschinen deine Seiten korrekt rendern können.
  • Verlinke alle relevanten XML-Sitemaps direkt in der Robots.Txt.

7.2 Don’ts: Häufige Fehler

  • Nie die gesamte Website versehentlich blockieren, etwa durch Disallow: / in der Live-Umgebung.
  • Keine sensiblen Pfade allein über Robots.Txt verstecken, da die Datei öffentlich ist.
  • Wichtige Produkt- oder Kategorieseiten nicht nur über Robots.Txt steuern, sondern zusätzlich mit interner Verlinkung und Sitemaps stärken.
  • Kein Blindflug: Änderungen an der Robots.Txt immer testen, bevor sie produktiv gehen.

7.3 Technische Prüfung der Robots.Txt mit SEO-Checker

Um Crawling-Probleme früh zu erkennen, solltest du regelmäßig prüfen, wie Suchmaschinen deine Robots.Txt und deine URL-Struktur interpretieren. Ein technischer OnPage-Check zeigt dir zum Beispiel blockierte Ressourcen, nicht erreichbare Seiten oder unnötige Sperren.

Mit Nutzung dieses SEO-Checks erklären Sie, dass Sie die Datenschutzerklärung zur Kenntnis genommen haben und damit einverstanden sind, dass die von Ihnen angegebenen Daten elektronisch erhoben und gespeichert werden. Ihre Daten werden dabei nur streng zweckgebunden zur Bearbeitung des SEO-Checks benutzt. Mit der Nutzung dieses SEO-Checks erklären Sie sich mit der Verarbeitung einverstanden.

8. Beispiele: Robots.Txt-Varianten für typische E-Commerce-Szenarien

8.1 Basis-Setup für einen mittelgroßen Shop

User-agent: *
Disallow: /admin/
Disallow: /checkout/
Disallow: /warenkorb/
Disallow: /suche/
Disallow: /*?sid=
Sitemap: https://www.deine-domain.de/sitemap_index.xml

Dieses Setup blockiert zentrale nicht-öffentliche oder wenig wertvolle Bereiche, während Produkt- und Kategorieseiten in der Sitemap gelistet und damit priorisiert werden.

8.2 Umgang mit Filter- und Facettennavigation

Filterkombinationen können schnell zu einer Explosion der crawlbaren URLs führen. Wenn du diese nicht gezielt für SEO nutzen möchtest, kannst du typische Parameter sperren.

User-agent: *
Disallow: /*?farbe=
Disallow: /*&groesse=
Disallow: /*&preis_von=
Disallow: /*&preis_bis=

In Kombination mit Canonical-Tags auf die Hauptkategorieseite verhinderst du so Duplicate Content und schonst das Crawl-Budget.

9. Rolle der Robots.Txt in skalierbaren Content-Prozessen

Wenn du große Sortimente mit tausenden SKUs hast und Produkttexte automatisiert aus Feeds generierst, zum Beispiel mit einem spezialisierten Tool auf Basis von XML- oder CSV-Feeds, ist eine intelligente Robots.Txt Teil deines Gesamt-Setups.

  • Neue Produkte werden über Feeds eingespielt und automatisiert mit Content versorgt.
  • Sitemaps werden regelmäßig aktualisiert, damit Suchmaschinen neue Artikel schnell finden.
  • Die Robots.Txt sorgt dafür, dass nur relevante URL-Typen gecrawlt werden.
  • Unnötige Parameter- oder Test-URLs werden gesperrt, damit das Crawl-Budget auf Umsatzseiten fokussiert bleibt.

So greifen technische SEO, automatisierte Content-Erstellung und strukturierte Datenprozesse ineinander und unterstützen Kennzahlen wie organischen Traffic, Conversion-Rate und Time-to-Market.

10. Häufige Fragen zur Robots.Txt

Wo finde ich die Robots.Txt meiner Website?

Die Robots.Txt einer Website liegt standardisiert im Wurzelverzeichnis der Domain und ist in der Regel unter der URL https://www.deine-domain.de/robots.txt erreichbar, wobei du deine eigene Domain einsetzen musst; wenn dort keine Datei vorhanden ist, wird auch keine Robots.Txt ausgeliefert.

Wie erstelle oder bearbeite ich eine Robots.Txt?

Du erstellst eine Robots.Txt mit einem einfachen Texteditor oder über die Konfiguration deines CMS oder Shop-Systems, speicherst sie als robots.txt im Hauptverzeichnis deiner Domain und achtest darauf, dass sie ohne Umleitungen und mit dem korrekten MIME-Typ text/plain ausgeliefert wird.

Kann ich mit Robots.Txt Seiten komplett aus Google entfernen?

Mit der Robots.Txt steuerst du vor allem das Crawling, nicht zuverlässig die Indexierung, daher solltest du zum Entfernen einzelner Seiten besser Meta-Robots mit noindex oder das URL-Entfernungs-Tool der jeweiligen Suchmaschine nutzen, anstatt dich ausschließlich auf Disallow-Einträge zu verlassen.

Was passiert, wenn ich Disallow Slash in der Robots.Txt setze?

Wenn du in der Robots.Txt einen Eintrag wie Disallow: / für einen User-Agent verwendest, sperrst du damit den Zugriff des betroffenen Crawlers auf alle Pfade der Website, was dazu führen kann, dass wichtige Seiten nicht mehr gecrawlt und mittelfristig aus den Suchergebnissen entfernt werden.

Wie teste ich, ob meine Robots.Txt korrekt funktioniert?

Du kannst die Wirkung deiner Robots.Txt testen, indem du in der Google Search Console die URL-Prüfung und gegebenenfalls das ältere Testtool für die Robots.Txt verwendest, zusätzlich helfen Logfile-Analysen und OnPage-SEO-Checks dabei zu prüfen, ob wichtige Ressourcen unerwartet blockiert werden.

Soll ich CSS- und JavaScript-Dateien in der Robots.Txt sperren?

In der Regel solltest du CSS- und JavaScript-Dateien nicht per Robots.Txt sperren, da Suchmaschinen diese Ressourcen für das Rendern und die Bewertung der Nutzererfahrung benötigen und eine Sperrung zu falschen Einschätzungen der Seitenqualität führen kann.

Was ist der Unterschied zwischen Robots.Txt und Meta-Robots?

Die Robots.Txt steuert auf Domain-Ebene, welche Pfade Crawler abrufen dürfen, während das Meta-Robots-Tag auf der einzelnen Seite festlegt, ob diese indexiert und in den Suchergebnissen mit Snippet angezeigt werden soll, weshalb beide Instrumente unterschiedliche, sich ergänzende Aufgaben erfüllen.

11. Nächste Schritte: Deine Produkttexte und technische SEO verbinden

Du möchtest skalierbare Produkttexte mit einer sauberen technischen Basis kombinieren? Sieh dir unsere Funktionen live an und teste, wie sich automatisierte, feedbasierte Inhalte und eine optimierte Robots.Txt gegenseitig verstärken können.

Kostenlos starten

Du hast noch Fragen?

Kontakt


Weitere Inhalte


Keine Kommentare vorhanden


Du hast eine Frage oder eine Meinung zum Artikel? Teile sie mit uns!

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*
*