
Was ist robots.txt und Sitemap?
Viele SEO-Probleme sind keine Content-Probleme, sondern Indexierungs-Probleme: Google findet zu viele URL-Varianten, hängt in unwichtigen Bereichen fest oder sieht „die falsche Version“ als Hauptseite.
Genau hier helfen zwei Dateien, die auf fast jeder Website existieren – und trotzdem häufig falsch eingesetzt werden:
robots.txt – kurz erklärt
robots.txt ist eine Textdatei im Root deiner Domain (z.B. https://www.deinedomain.de/robots.txt). Sie gibt Crawlern Regeln, welche Pfade sie crawlen dürfen und welche nicht.
Wichtig: robots.txt ist in erster Linie Crawl-Steuerung, kein zuverlässiger „bitte nicht in Google anzeigen“-Schalter.
sitemap.xml – kurz erklärt
Eine sitemap.xml ist eine XML-Datei (z.B. https://www.deinedomain.de/sitemap.xml), die Suchmaschinen eine kuratierte Liste wichtiger, indexierbarer URLs gibt.
Sie ist kein Ersatz für interne Verlinkung – aber ein sehr klares Signal, welche Seiten du als „Hauptseiten“ verstehst.
Damit du die beiden richtig einsetzt, ist ein Begriffspaar entscheidend: Crawling und Indexierung sind nicht dasselbe.
1) Crawling vs. Indexierung: die 30‑Sekunden‑Klarheit
- Crawling: Google ruft eine URL ab (bot besucht die Seite).
- Indexierung: Google nimmt die URL in den Index auf (kann in Suchergebnissen erscheinen).
Darum gilt:
Disallowin robots.txt kann das Crawling verhindern, aber keine saubere Deindexierung garantieren.- Für „bitte nicht in Google“ brauchst du in der Regel Statuscodes & Canonicals (z.B.
301/308auf die richtige URL) und/oder eine echte Entfernung (Seite weg/404/410). Je nach Setup kann auchnoindexhelfen – aber nicht in jedem Kontext zuverlässig.
Wenn du beim Thema „richtige URL“ tiefer einsteigen willst: Canonical & Redirects (308)
2) Sitemap.xml: Was rein muss (und was nicht)
Eine Sitemap ist keine „Liste aller URLs“, sondern eine kuratierte Liste deiner indexierbaren Haupt-URLs.
In die Sitemap gehören
- Canonical-URLs, die du wirklich ranken lassen willst
- 200 OK Seiten (keine Fehlerseiten)
- Inhalte mit Substanz (nicht „Thin Pages“)
- URLs, die intern erreichbar sind (Sitemap ersetzt keine IA)
Nicht in die Sitemap gehören
- Redirect-URLs (
301/302/307/308) - 404/410
- Parameter-Varianten (
?utm=, Sortierungen, Filter) - Admin-/Preview-/Staging-URLs
- Duplicate-Content-Varianten (mit/ohne Slash, http/https, www/non‑www)
lastmod: sinnvoll, wenn es stimmt
lastmod ist hilfreich, wenn es realistisch gepflegt wird. Ein „immer heute“ wirkt schnell wie Spam-Signal und bringt selten Vorteile.
3) robots.txt: Wofür es gut ist (und wofür nicht)
Robots ist ideal, um Crawl-Budget zu schützen und Crawler aus Bereichen rauszuhalten, die keinen Suchwert haben.
Typische sinnvolle Regeln
- interne Suchergebnisse
- Filter-/Sortierseiten
- Checkout/Warenkorb
- Staging-/Preview-Pfade (wobei Staging besser per Auth geschützt ist)
Typische gefährliche Fehler
- wichtige Seiten oder ganze Ordner aus Versehen blocken
- Sitemap-URLs blocken (oder URLs in der Sitemap blocken)
- robots.txt als „Noindex-Lösung“ missbrauchen
Minimal-beispiel: robots.txt (sauber und robust)
User-agent: *
Disallow: /api/
Disallow: /_next/
Sitemap: https://www.deinedomain.de/sitemap.xml
Hinweis: Welche Pfade du blocken solltest, hängt von deiner Site-Struktur ab. Blocke nur, was du wirklich nicht gecrawlt haben willst.
4) Schritt-für-Schritt: Setup, das in der Praxis funktioniert
Schritt 1: Canonical-Host festlegen
Entscheide dich für eine Hauptvariante (z.B. https://www…) und sorge dafür, dass alle anderen Varianten per Redirect dorthin führen.
Schritt 2: Sitemap generieren und prüfen
Checkliste für jede URL in der Sitemap:
- liefert 200
- ist canonical (keine Dublette)
- hat sinnvollen Content
- ist nicht per robots blockiert
Schritt 3: robots.txt aufräumen
Ziel: Alles Wichtige darf gecrawlt werden. Alles Unwichtige wird (gezielt) ausgeschlossen.
Schritt 4: In der Google Search Console einreichen
- Sitemap hinzufügen
- Fehler/Abdeckung prüfen (z.B. „Eingereicht, aber nicht indexiert“)
- Stichproben: wichtige URLs per URL-Prüfung testen
Schritt 5: Monitoring (1× pro Monat)
- neue/entfernte URLs → Sitemap aktualisiert?
- neue Parameter-/Filter-URLs → tauchen sie plötzlich auf?
- plötzliche „blockiert durch robots“ Meldungen → Regel versehentlich zu breit?
5) Häufige Probleme & schnelle Diagnose
Problem: „Blockiert durch robots.txt“
- Ist die URL wirklich wichtig? Dann Regel anpassen.
- Ist es eine Parameter-/Filter-URL? Dann ist Blocken oft korrekt – aber stelle sicher, dass die canonical Seite intern gut verlinkt ist.
Problem: „Eingereicht, aber nicht indexiert“
- Qualität/Einzigartigkeit: liefert die Seite echten Mehrwert?
- Interne Links: wird die Seite aus Navigation/Content heraus gefunden?
- Canonical: zeigt die Seite wirklich auf sich selbst (oder auf eine andere URL)?
Problem: Sitemap zeigt falschen Host
- Sitemap muss unter dem Canonical-Host erreichbar sein.
- Häufige Ursache: falsche Base-URL im Build/Deployment.
Bonus: Interne Links schlagen jede Sitemap
Die Sitemap ist ein Signal. Interne Links sind der echte Pfad, über den Google Wichtigkeit und Kontext versteht.
Wenn du interne Links verbessern willst: Website: Wartung & Sicherheit
Nächster Schritt
Wenn du willst, schauen wir deine Indexierung einmal systematisch durch (Varianten, Canonicals, Sitemap/Robots, GSC-Fehler) und priorisieren danach die Inhalte, die wirklich Umsatz bringen.


