Seit der Version 2.0.1 erstellt WordPress eine eigene robots.txt, wenn man selbst keine hat. Diese Angaben in der robots.txt von WordPress sind sehr wenige, doch viele wissen gar nicht, dass es diese gibt.
Kurze Erklärung wo diese robots.txt erzeugt wird, was sie aussagt und wie man seine eigene robots.txt erstellen kann und wieso dies gut ist.
WP-includes/functions.php Zeile 1724
* @since 2.1.0 * @uses do_action() Calls 'do_robotstxt' hook for displaying robot.txt rules. */ function do_robots() { header( 'Content-Type: text/plain; charset=utf-8' ); do_action( 'do_robotstxt' ); if ( '0' == get_option( 'blog_public' ) ) { echo "User-agent: *\n"; echo "Disallow: /\n"; } else { echo "User-agent: *\n"; echo "Disallow:\n"; } }
Im Ordner wp-includes liegt die functions.php und dort wird die robots.txt erzeugt. Installiert man WordPress kann man sich aussuchen, ob das Blog öffentlich sein sollte oder nicht und je nachdem was man anhakt erstellt WP die passende robots.txt.
alles verbieten in der robots.txt
Mag man seinen Blog, seine Website absolut nicht öffentlich haben, ist es sinnvoll zuerst die Suchmaschinen auszusperren. An folgende Angabe halten sich die guten Bots alle:
User-agent: * Disallow: /
Der Slash -also der Schrägstrich- neben dem Disallow sagt den Suchmaschinen: Du darfst hier nicht rein!
Fehlt der Slash haben alle Suchmaschinen uneingeschränkten Zugang zur Domain und den Dateien.
Dies sieht dann so aus:
User-agent:* Disallow:
Ich bin jedoch sehr heikel was die robots.txt angeht und mit mir auch einige andere Fachleute wie zb Eren von Seopt.de. – Er brachte mich auch darauf, dass nicht jeder weiß, dass WordPress selbstständig eine robots.txt erstellt.
Die robots.txt ist eine gute Erfindung, doch man kann damit sehr schnell Websites aus den Suchmaschinen bringen.
Daher empfehle ich dringendst selbst eine robots.txt zu erstellen und da drin das verbieten was man wirklich verboten haben mag und das erlauben was man erlauben mag.
z.B.: Suchergebnisse verbieten
Disallow: /?s*
Einloggen und registrieren muss sich auch keine Suchmaschine können
Disallow: /wp-register.php Disallow: /wp-login.php
Das Prinzip ist also leicht erklärt:
Disallow und dann der Pfad zu dem Ordner oder der Datei, die die Suchmaschinen nicht durchsuchen sollten.
Die robots.txt liegt immer im root einer Domain. Rufe Deine Domain auf und dann hänge einfach robots.txt dran, sieh sie Dir an und ändere sie gegebenfalls, sicher ist sicher

Ivan
15.09.09 um 09:17Hallo,
kann man die robots.txt in den Root Pfad legen und erkennt dann WordPress automatisch, dass eine externe Datei verfügbar ist?
texto
15.09.09 um 16:03ja Ivan genauso gehts
Ivan
15.09.09 um 20:10Hi, danke Dir für die Info!
Andreas
15.09.09 um 23:27Empfehlenswert ist auch, besonders für Blogs, die als “meinungsbildend” gelten, die Impressum-Seite zu sperren. Gewerbsmäßige Abmahn-Gangster scannen Impressum-Seiten, um sie auf Abmahnpotential zu checken. Das muss man ihnen nicht noch via Google erleichtern.
Dörte
16.09.09 um 00:47Zitat:
“Empfehlenswert ist auch, besonders für Blogs, die als “meinungsbildend” gelten, die Impressum-Seite zu sperren. ”
Und wie mache ich das, wenn die Seite doch über die Datenbank erzeugt wird?
texto
16.09.09 um 01:13Hallo Dörte
hi Dörte diese Seite hat einen sogenannten page slug
zb deinedomain.tld/impressum
in die robots.txt kommt dann
und in die header.php des verwendeten Themes:
Dieter
16.09.09 um 18:08Ich würde weder das Ausprobieren der Suche Google und Co. als auch das Login nicht ausschließen.
Gründe:
Die Suche mit s kann zu besseren bzw. häufigeren Suchtreffern durch Google führen.
Für das Login habe ich keine Links in meinen WordPress-Installationen. Damit finden normalerweise Suchmaschinen die Links schon nicht. Gebe ich sie in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher.
Falko
17.09.09 um 11:51Hey,
das
füge ich das in den -Bereich oder in den -Bereich?
Oder ist gar egal?
Danke
Falko
17.09.09 um 11:52Uhm, meinen Kommentar hats etwas zerhauen. Wollte wissen ob man den Code oben in den Head-Bereich oder den Body-BEreich tun sollte?
texto
17.09.09 um 13:03Hallo Falko
meta name = …
zwischen
head und /head
lg
vale001
11.10.09 um 11:19Danke für diesen tollen Robots.txt tut!
Hast mir nen riesigen sprung weitergeholfen damit!
Thomas
09.12.09 um 03:46@Dieter
“Gebe ich sie…” (login/register) “…in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher…”
Wissen die bösen Buben nicht sowieso wo bei WordPress der Login/Register liegt?
texto
09.12.09 um 06:10nein Thomas man kann jeden Ordner von WordPress umbenennen oder woanders hinverschieben,
doch die Frage ist, ob die sich Zeit nehmen die robots.txt zu lesen
Dieter
09.12.09 um 09:31@Monika
Bin kein böser Bube und habe mich mit ihnen auch noch nicht näher beschäftigt.
Wenn ich aber eine Schwachstelle suchen würde, würde ich mir auch die robots.txt anschauen. Immer wieder kommt es vor, dass dort Verzeichnisse oder Dateipfade enthalten sind, die da nichts zu suchen haben. Wenn dann auch noch kein Passwortschutz angelegt wurde, könnte das einen Angriff erleichtern.
Anna
28.10.10 um 21:33Danke, ist super, ich hab damit echt schon meine schwierigkeiten gehabt.
Anna
Werner Gottschlich
01.11.10 um 21:05Hallo, ist es richtig, auch die sitemap in die robots.txt einzutragen?
texto
06.11.10 um 17:44ja das wäre gut … sehr gut sogar