Quick Tipp: WordPress und die robots.txt

WordPress erstellt eine eigene robots.txt, wenn man selbst keine macht. Sicherer ist es jedoch, wenn jede Domain die eigene robots.txt hat und man gezielt Regeln darin aufnimmt.

 
 robots.txt von WordPress

Seit der Version 2.0.1 erstellt WordPress eine eigene robots.txt, wenn man selbst keine hat. Diese Angaben in der robots.txt von WordPress sind sehr wenige, doch viele wissen gar nicht, dass es diese gibt.

Kurze Erklärung wo diese robots.txt erzeugt wird, was sie aussagt und wie man seine eigene robots.txt erstellen kann und wieso dies gut ist.

WP-includes/functions.php Zeile 1724

 * @since 2.1.0
 * @uses do_action() Calls 'do_robotstxt' hook for displaying robot.txt rules.
 */
function do_robots() {
	header( 'Content-Type: text/plain; charset=utf-8' );
 
	do_action( 'do_robotstxt' );
 
	if ( '0' == get_option( 'blog_public' ) ) {
		echo "User-agent: *\n";
		echo "Disallow: /\n";
	} else {
		echo "User-agent: *\n";
		echo "Disallow:\n";
	}
}

Im Ordner wp-includes liegt die functions.php und dort wird die robots.txt erzeugt. Installiert man WordPress kann man sich aussuchen, ob das Blog öffentlich sein sollte oder nicht und je nachdem was man anhakt erstellt WP die passende robots.txt.

alles verbieten in der robots.txt

Mag man seinen Blog, seine Website absolut nicht öffentlich haben, ist es sinnvoll zuerst die Suchmaschinen auszusperren. An folgende Angabe halten sich die guten Bots alle:

User-agent: *
Disallow: /

Der Slash -also der Schrägstrich- neben dem Disallow sagt den Suchmaschinen: Du darfst hier nicht rein!

Fehlt der Slash haben alle Suchmaschinen uneingeschränkten Zugang zur Domain und den Dateien.

Dies sieht dann so aus:

User-agent:*
Disallow:

Ich bin jedoch sehr heikel was die robots.txt angeht und mit mir auch einige andere Fachleute wie zb Eren von Seopt.de. – Er brachte mich auch darauf, dass nicht jeder weiß, dass WordPress selbstständig eine robots.txt erstellt. ;-)

Die robots.txt ist eine gute Erfindung, doch man kann damit sehr schnell Websites aus den Suchmaschinen bringen.

Daher empfehle ich dringendst selbst eine robots.txt zu erstellen und da drin das verbieten was man wirklich verboten haben mag und das erlauben was man erlauben mag.

z.B.: Suchergebnisse verbieten

Disallow:  /?s*

Einloggen und registrieren muss sich auch keine Suchmaschine können ;-)

Disallow: /wp-register.php
Disallow: /wp-login.php

Das Prinzip ist also leicht erklärt:

Disallow und dann der Pfad zu dem Ordner oder der Datei, die die Suchmaschinen nicht durchsuchen sollten.

Die robots.txt liegt immer im root einer Domain. Rufe Deine Domain auf und dann hänge einfach robots.txt dran, sieh sie Dir an und ändere sie gegebenfalls, sicher ist sicher :-)

17 Kommentare zu "Quick Tipp: WordPress und die robots.txt"
  1. Hallo,
    kann man die robots.txt in den Root Pfad legen und erkennt dann WordPress automatisch, dass eine externe Datei verfügbar ist?

  2. Empfehlenswert ist auch, besonders für Blogs, die als “meinungsbildend” gelten, die Impressum-Seite zu sperren. Gewerbsmäßige Abmahn-Gangster scannen Impressum-Seiten, um sie auf Abmahnpotential zu checken. Das muss man ihnen nicht noch via Google erleichtern.

  3. Zitat:
    “Empfehlenswert ist auch, besonders für Blogs, die als “meinungsbildend” gelten, die Impressum-Seite zu sperren. ”

    Und wie mache ich das, wenn die Seite doch über die Datenbank erzeugt wird?

  4. Hallo Dörte

    hi Dörte diese Seite hat einen sogenannten page slug
    zb deinedomain.tld/impressum

    in die robots.txt kommt dann

    Disallow:  /impressum/

    und in die header.php des verwendeten Themes:

    <?php if (is_page('impressum')):?>
    <meta name="robots" content="noindex " />
    <?php endif;?>
  5. Ich würde weder das Ausprobieren der Suche Google und Co. als auch das Login nicht ausschließen.

    Gründe:
    Die Suche mit s kann zu besseren bzw. häufigeren Suchtreffern durch Google führen.

    Für das Login habe ich keine Links in meinen WordPress-Installationen. Damit finden normalerweise Suchmaschinen die Links schon nicht. Gebe ich sie in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher.

  6. Hey,

    das

    füge ich das in den -Bereich oder in den -Bereich?
    Oder ist gar egal?
    Danke

  7. Uhm, meinen Kommentar hats etwas zerhauen. Wollte wissen ob man den Code oben in den Head-Bereich oder den Body-BEreich tun sollte?

  8. @Dieter

    “Gebe ich sie…” (login/register) “…in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher…”

    Wissen die bösen Buben nicht sowieso wo bei WordPress der Login/Register liegt?

  9. nein Thomas man kann jeden Ordner von WordPress umbenennen oder woanders hinverschieben,

    doch die Frage ist, ob die sich Zeit nehmen die robots.txt zu lesen

  10. @Monika
    Bin kein böser Bube und habe mich mit ihnen auch noch nicht näher beschäftigt.

    Wenn ich aber eine Schwachstelle suchen würde, würde ich mir auch die robots.txt anschauen. Immer wieder kommt es vor, dass dort Verzeichnisse oder Dateipfade enthalten sind, die da nichts zu suchen haben. Wenn dann auch noch kein Passwortschutz angelegt wurde, könnte das einen Angriff erleichtern.

1 Ping zu "Quick Tipp: WordPress und die robots.txt"
  1. fisiblog.net » Blog Archive » Wordpress: robots.txt
    [...] auch bei texto.de zu lesen ist, legt WordPress selbstständig eine robots.txt an. Wählt man bei der Installation [...]