23. Januar 2026
4 Min. Lesezeit
SEOTechnisches SEOIndexierungWebseiten

Robots.txt & Sitemap.xml: So steuerst du Indexierung ohne SEO-Mythen

Was gehört in die Sitemap, was in robots.txt – und was ist ein gefährlicher Fehler? Hier ist die klare, praxisnahe Version.

Sitemap und Robots korrekt konfigurieren
Indexierung ist Steuerung – nicht Hoffnung.

Was ist robots.txt und Sitemap?

Viele SEO-Probleme sind keine Content-Probleme, sondern Indexierungs-Probleme: Google findet zu viele URL-Varianten, hängt in unwichtigen Bereichen fest oder sieht „die falsche Version“ als Hauptseite.

Genau hier helfen zwei Dateien, die auf fast jeder Website existieren – und trotzdem häufig falsch eingesetzt werden:

robots.txt – kurz erklärt

robots.txt ist eine Textdatei im Root deiner Domain (z.B. https://www.deinedomain.de/robots.txt). Sie gibt Crawlern Regeln, welche Pfade sie crawlen dürfen und welche nicht.

Wichtig: robots.txt ist in erster Linie Crawl-Steuerung, kein zuverlässiger „bitte nicht in Google anzeigen“-Schalter.

sitemap.xml – kurz erklärt

Eine sitemap.xml ist eine XML-Datei (z.B. https://www.deinedomain.de/sitemap.xml), die Suchmaschinen eine kuratierte Liste wichtiger, indexierbarer URLs gibt.

Sie ist kein Ersatz für interne Verlinkung – aber ein sehr klares Signal, welche Seiten du als „Hauptseiten“ verstehst.

Damit du die beiden richtig einsetzt, ist ein Begriffspaar entscheidend: Crawling und Indexierung sind nicht dasselbe.

1) Crawling vs. Indexierung: die 30‑Sekunden‑Klarheit

  • Crawling: Google ruft eine URL ab (bot besucht die Seite).
  • Indexierung: Google nimmt die URL in den Index auf (kann in Suchergebnissen erscheinen).

Darum gilt:

  • Disallow in robots.txt kann das Crawling verhindern, aber keine saubere Deindexierung garantieren.
  • Für „bitte nicht in Google“ brauchst du in der Regel Statuscodes & Canonicals (z.B. 301/308 auf die richtige URL) und/oder eine echte Entfernung (Seite weg/404/410). Je nach Setup kann auch noindex helfen – aber nicht in jedem Kontext zuverlässig.

Wenn du beim Thema „richtige URL“ tiefer einsteigen willst: Canonical & Redirects (308)

2) Sitemap.xml: Was rein muss (und was nicht)

Eine Sitemap ist keine „Liste aller URLs“, sondern eine kuratierte Liste deiner indexierbaren Haupt-URLs.

In die Sitemap gehören

  • Canonical-URLs, die du wirklich ranken lassen willst
  • 200 OK Seiten (keine Fehlerseiten)
  • Inhalte mit Substanz (nicht „Thin Pages“)
  • URLs, die intern erreichbar sind (Sitemap ersetzt keine IA)

Nicht in die Sitemap gehören

  • Redirect-URLs (301/302/307/308)
  • 404/410
  • Parameter-Varianten (?utm=, Sortierungen, Filter)
  • Admin-/Preview-/Staging-URLs
  • Duplicate-Content-Varianten (mit/ohne Slash, http/https, www/non‑www)

lastmod: sinnvoll, wenn es stimmt

lastmod ist hilfreich, wenn es realistisch gepflegt wird. Ein „immer heute“ wirkt schnell wie Spam-Signal und bringt selten Vorteile.

3) robots.txt: Wofür es gut ist (und wofür nicht)

Robots ist ideal, um Crawl-Budget zu schützen und Crawler aus Bereichen rauszuhalten, die keinen Suchwert haben.

Typische sinnvolle Regeln

  • interne Suchergebnisse
  • Filter-/Sortierseiten
  • Checkout/Warenkorb
  • Staging-/Preview-Pfade (wobei Staging besser per Auth geschützt ist)

Typische gefährliche Fehler

  • wichtige Seiten oder ganze Ordner aus Versehen blocken
  • Sitemap-URLs blocken (oder URLs in der Sitemap blocken)
  • robots.txt als „Noindex-Lösung“ missbrauchen

Minimal-beispiel: robots.txt (sauber und robust)

User-agent: *
Disallow: /api/
Disallow: /_next/

Sitemap: https://www.deinedomain.de/sitemap.xml

Hinweis: Welche Pfade du blocken solltest, hängt von deiner Site-Struktur ab. Blocke nur, was du wirklich nicht gecrawlt haben willst.

4) Schritt-für-Schritt: Setup, das in der Praxis funktioniert

Schritt 1: Canonical-Host festlegen

Entscheide dich für eine Hauptvariante (z.B. https://www…) und sorge dafür, dass alle anderen Varianten per Redirect dorthin führen.

Schritt 2: Sitemap generieren und prüfen

Checkliste für jede URL in der Sitemap:

  • liefert 200
  • ist canonical (keine Dublette)
  • hat sinnvollen Content
  • ist nicht per robots blockiert

Schritt 3: robots.txt aufräumen

Ziel: Alles Wichtige darf gecrawlt werden. Alles Unwichtige wird (gezielt) ausgeschlossen.

Schritt 4: In der Google Search Console einreichen

  • Sitemap hinzufügen
  • Fehler/Abdeckung prüfen (z.B. „Eingereicht, aber nicht indexiert“)
  • Stichproben: wichtige URLs per URL-Prüfung testen

Schritt 5: Monitoring (1× pro Monat)

  • neue/entfernte URLs → Sitemap aktualisiert?
  • neue Parameter-/Filter-URLs → tauchen sie plötzlich auf?
  • plötzliche „blockiert durch robots“ Meldungen → Regel versehentlich zu breit?

5) Häufige Probleme & schnelle Diagnose

Problem: „Blockiert durch robots.txt“

  • Ist die URL wirklich wichtig? Dann Regel anpassen.
  • Ist es eine Parameter-/Filter-URL? Dann ist Blocken oft korrekt – aber stelle sicher, dass die canonical Seite intern gut verlinkt ist.

Problem: „Eingereicht, aber nicht indexiert“

  • Qualität/Einzigartigkeit: liefert die Seite echten Mehrwert?
  • Interne Links: wird die Seite aus Navigation/Content heraus gefunden?
  • Canonical: zeigt die Seite wirklich auf sich selbst (oder auf eine andere URL)?

Problem: Sitemap zeigt falschen Host

  • Sitemap muss unter dem Canonical-Host erreichbar sein.
  • Häufige Ursache: falsche Base-URL im Build/Deployment.

Bonus: Interne Links schlagen jede Sitemap

Die Sitemap ist ein Signal. Interne Links sind der echte Pfad, über den Google Wichtigkeit und Kontext versteht.

Wenn du interne Links verbessern willst: Website: Wartung & Sicherheit

Nächster Schritt

Wenn du willst, schauen wir deine Indexierung einmal systematisch durch (Varianten, Canonicals, Sitemap/Robots, GSC-Fehler) und priorisieren danach die Inhalte, die wirklich Umsatz bringen.

Weiterlesen

Passend dazu

FAQ

Blockiert robots.txt das Indexieren?
Robots blockiert das Crawlen – nicht garantiert das Indexieren. Für echte Deindexierung brauchst du z.B. `noindex` (wo unterstützt) oder Entfernen/Redirect.
Muss jede URL in die Sitemap?
Nein. Nur Canonical-URLs, die du indexiert haben willst (200 OK, sinnvoller Content).
Wie oft soll die Sitemap aktualisiert werden?
Bei neuen Seiten/Posts sofort. Bei statischen Sites reicht es, wenn sie beim Build aktualisiert wird.
Was sind typische Sitemap-Fehler?
404/Redirect-URLs drin, falscher Host, falsche Canonicals, oder URLs, die du per robots blockierst.
Brauche ich `lastmod`?
Hilft, wenn es korrekt ist. Falsches `lastmod` (immer heute) kann eher schaden als nützen.