Blockiert robots.txt das Indexieren?

Robots blockiert das Crawlen – nicht garantiert das Indexieren. Für echte Deindexierung brauchst du z.B. `noindex` (wo unterstützt) oder Entfernen/Redirect.

Muss jede URL in die Sitemap?

Nein. Nur Canonical-URLs, die du indexiert haben willst (200 OK, sinnvoller Content).

Wie oft soll die Sitemap aktualisiert werden?

Bei neuen Seiten/Posts sofort. Bei statischen Sites reicht es, wenn sie beim Build aktualisiert wird.

Was sind typische Sitemap-Fehler?

404/Redirect-URLs drin, falscher Host, falsche Canonicals, oder URLs, die du per robots blockierst.

Brauche ich `lastmod`?

Hilft, wenn es korrekt ist. Falsches `lastmod` (immer heute) kann eher schaden als nützen.

Robots.txt & Sitemap.xml: So steuerst du Indexierung ohne SEO-Mythen

Sitemap und Robots korrekt konfigurieren — Indexierung ist Steuerung – nicht Hoffnung.

Was ist robots.txt und Sitemap?

Viele SEO-Probleme sind keine Content-Probleme, sondern Indexierungs-Probleme: Google findet zu viele URL-Varianten, hängt in unwichtigen Bereichen fest oder sieht „die falsche Version“ als Hauptseite.

Genau hier helfen zwei Dateien, die auf fast jeder Website existieren – und trotzdem häufig falsch eingesetzt werden:

robots.txt – kurz erklärt

robots.txt ist eine Textdatei im Root deiner Domain (z.B. https://www.deinedomain.de/robots.txt). Sie gibt Crawlern Regeln, welche Pfade sie crawlen dürfen und welche nicht.

Wichtig: robots.txt ist in erster Linie Crawl-Steuerung, kein zuverlässiger „bitte nicht in Google anzeigen“-Schalter.

sitemap.xml – kurz erklärt

Eine sitemap.xml ist eine XML-Datei (z.B. https://www.deinedomain.de/sitemap.xml), die Suchmaschinen eine kuratierte Liste wichtiger, indexierbarer URLs gibt.

Sie ist kein Ersatz für interne Verlinkung – aber ein sehr klares Signal, welche Seiten du als „Hauptseiten“ verstehst.

Damit du die beiden richtig einsetzt, ist ein Begriffspaar entscheidend: Crawling und Indexierung sind nicht dasselbe.

1) Crawling vs. Indexierung: die 30‑Sekunden‑Klarheit

Crawling: Google ruft eine URL ab (bot besucht die Seite).
Indexierung: Google nimmt die URL in den Index auf (kann in Suchergebnissen erscheinen).

Darum gilt:

Disallow in robots.txt kann das Crawling verhindern, aber keine saubere Deindexierung garantieren.
Für „bitte nicht in Google“ brauchst du in der Regel Statuscodes & Canonicals (z.B. 301/308 auf die richtige URL) und/oder eine echte Entfernung (Seite weg/404/410). Je nach Setup kann auch noindex helfen – aber nicht in jedem Kontext zuverlässig.

Wenn du beim Thema „richtige URL“ tiefer einsteigen willst: Canonical & Redirects (308)

2) Sitemap.xml: Was rein muss (und was nicht)

Eine Sitemap ist keine „Liste aller URLs“, sondern eine kuratierte Liste deiner indexierbaren Haupt-URLs.

In die Sitemap gehören

Canonical-URLs, die du wirklich ranken lassen willst
200 OK Seiten (keine Fehlerseiten)
Inhalte mit Substanz (nicht „Thin Pages“)
URLs, die intern erreichbar sind (Sitemap ersetzt keine IA)

Nicht in die Sitemap gehören

Redirect-URLs (301/302/307/308)
404/410
Parameter-Varianten (?utm=, Sortierungen, Filter)
Admin-/Preview-/Staging-URLs
Duplicate-Content-Varianten (mit/ohne Slash, http/https, www/non‑www)

`lastmod`: sinnvoll, wenn es stimmt

lastmod ist hilfreich, wenn es realistisch gepflegt wird. Ein „immer heute“ wirkt schnell wie Spam-Signal und bringt selten Vorteile.

3) robots.txt: Wofür es gut ist (und wofür nicht)

Robots ist ideal, um Crawl-Budget zu schützen und Crawler aus Bereichen rauszuhalten, die keinen Suchwert haben.

Typische sinnvolle Regeln

interne Suchergebnisse
Filter-/Sortierseiten
Checkout/Warenkorb
Staging-/Preview-Pfade (wobei Staging besser per Auth geschützt ist)

Typische gefährliche Fehler

wichtige Seiten oder ganze Ordner aus Versehen blocken
Sitemap-URLs blocken (oder URLs in der Sitemap blocken)
robots.txt als „Noindex-Lösung“ missbrauchen

Minimal-beispiel: robots.txt (sauber und robust)

User-agent: *
Disallow: /api/
Disallow: /_next/

Sitemap: https://www.deinedomain.de/sitemap.xml

Hinweis: Welche Pfade du blocken solltest, hängt von deiner Site-Struktur ab. Blocke nur, was du wirklich nicht gecrawlt haben willst.

4) Schritt-für-Schritt: Setup, das in der Praxis funktioniert

Schritt 1: Canonical-Host festlegen

Entscheide dich für eine Hauptvariante (z.B. https://www…) und sorge dafür, dass alle anderen Varianten per Redirect dorthin führen.

Schritt 2: Sitemap generieren und prüfen

Checkliste für jede URL in der Sitemap:

liefert 200
ist canonical (keine Dublette)
hat sinnvollen Content
ist nicht per robots blockiert

Schritt 3: robots.txt aufräumen

Ziel: Alles Wichtige darf gecrawlt werden. Alles Unwichtige wird (gezielt) ausgeschlossen.

Schritt 4: In der Google Search Console einreichen

Sitemap hinzufügen
Fehler/Abdeckung prüfen (z.B. „Eingereicht, aber nicht indexiert“)
Stichproben: wichtige URLs per URL-Prüfung testen

Schritt 5: Monitoring (1× pro Monat)

neue/entfernte URLs → Sitemap aktualisiert?
neue Parameter-/Filter-URLs → tauchen sie plötzlich auf?
plötzliche „blockiert durch robots“ Meldungen → Regel versehentlich zu breit?

5) Häufige Probleme & schnelle Diagnose

Problem: „Blockiert durch robots.txt“

Ist die URL wirklich wichtig? Dann Regel anpassen.
Ist es eine Parameter-/Filter-URL? Dann ist Blocken oft korrekt – aber stelle sicher, dass die canonical Seite intern gut verlinkt ist.

Problem: „Eingereicht, aber nicht indexiert“

Qualität/Einzigartigkeit: liefert die Seite echten Mehrwert?
Interne Links: wird die Seite aus Navigation/Content heraus gefunden?
Canonical: zeigt die Seite wirklich auf sich selbst (oder auf eine andere URL)?

Problem: Sitemap zeigt falschen Host

Sitemap muss unter dem Canonical-Host erreichbar sein.
Häufige Ursache: falsche Base-URL im Build/Deployment.

Bonus: Interne Links schlagen jede Sitemap

Die Sitemap ist ein Signal. Interne Links sind der echte Pfad, über den Google Wichtigkeit und Kontext versteht.

Wenn du interne Links verbessern willst: Website: Wartung & Sicherheit

Nächster Schritt

Wenn du willst, schauen wir deine Indexierung einmal systematisch durch (Varianten, Canonicals, Sitemap/Robots, GSC-Fehler) und priorisieren danach die Inhalte, die wirklich Umsatz bringen.

Robots.txt & Sitemap.xml: So steuerst du Indexierung ohne SEO-Mythen

Was ist robots.txt und Sitemap?

robots.txt – kurz erklärt

sitemap.xml – kurz erklärt

1) Crawling vs. Indexierung: die 30‑Sekunden‑Klarheit