WordPress und die robots.txt

 
 robots.txt von WordPress

Seit der Version 2.0.1 erstellt WordPress eine eigene robots.txt, wenn man selbst keine hat. Diese Angaben in der robots.txt von WordPress sind sehr wenige, doch viele wissen gar nicht, dass es diese gibt.

Kurze Erklärung wo diese robots.txt erzeugt wird, was sie aussagt und wie man seine eigene robots.txt erstellen kann und wieso dies gut ist.

WP-includes/functions.php Zeile 1724


 * @since 2.1.0
 * @uses do_action() Calls 'do_robotstxt' hook for displaying robot.txt rules.
 */
function do_robots() {
	header( 'Content-Type: text/plain; charset=utf-8' );

	do_action( 'do_robotstxt' );

	if ( '0' == get_option( 'blog_public' ) ) {
		echo "User-agent: *\n";
		echo "Disallow: /\n";
	} else {
		echo "User-agent: *\n";
		echo "Disallow:\n";
	}
}

Im Ordner wp-includes liegt die functions.php und dort wird die robots.txt erzeugt. Installiert man WordPress kann man sich aussuchen, ob das Blog öffentlich sein sollte oder nicht und je nachdem was man anhakt erstellt WP die passende robots.txt.

alles verbieten in der robots.txt

Mag man seinen Blog, seine Website absolut nicht öffentlich haben, ist es sinnvoll zuerst die Suchmaschinen auszusperren. An folgende Angabe halten sich die guten Bots alle:

User-agent: *
Disallow: /


Der Slash -also der Schrägstrich- neben dem Disallow sagt den Suchmaschinen: Du darfst hier nicht rein!

Fehlt der Slash haben alle Suchmaschinen uneingeschränkten Zugang zur Domain und den Dateien.

Dies sieht dann so aus:

User-agent:*
Disallow:

Ich bin jedoch sehr heikel was die robots.txt angeht und mit mir auch einige andere Fachleute wie zb Eren von Seopt.de. – Er brachte mich auch darauf, dass nicht jeder weiß, dass WordPress selbstständig eine robots.txt erstellt. ;-)

Die robots.txt ist eine gute Erfindung, doch man kann damit sehr schnell Websites aus den Suchmaschinen bringen.

Daher empfehle ich dringendst selbst eine robots.txt zu erstellen und da drin das verbieten was man wirklich verboten haben mag und das erlauben was man erlauben mag.

z.B.: Suchergebnisse verbieten

Disallow:  /?s*


Einloggen und registrieren muss sich auch keine Suchmaschine können ;-)

Disallow: /wp-register.php
Disallow: /wp-login.php

Das Prinzip ist also leicht erklärt:

Disallow und dann der Pfad zu dem Ordner oder der Datei, die die Suchmaschinen nicht durchsuchen sollten.

Die robots.txt liegt immer im root einer Domain. Rufe Deine Domain auf und dann hänge einfach robots.txt dran, sieh sie Dir an und ändere sie gegebenfalls, sicher ist sicher :-)

17

17 Beiträge zu “WordPress und die robots.txt

  1. Kommentar Autor
    Ivan
    Kommentar

    Hallo,
    kann man die robots.txt in den Root Pfad legen und erkennt dann WordPress automatisch, dass eine externe Datei verfügbar ist?

  2. Kommentar Autor
    Andreas
    Kommentar

    Empfehlenswert ist auch, besonders für Blogs, die als „meinungsbildend“ gelten, die Impressum-Seite zu sperren. Gewerbsmäßige Abmahn-Gangster scannen Impressum-Seiten, um sie auf Abmahnpotential zu checken. Das muss man ihnen nicht noch via Google erleichtern.

  3. Kommentar Autor
    Dörte
    Kommentar

    Zitat:
    „Empfehlenswert ist auch, besonders für Blogs, die als “meinungsbildend” gelten, die Impressum-Seite zu sperren. “

    Und wie mache ich das, wenn die Seite doch über die Datenbank erzeugt wird?

  4. Kommentar Autor
    Monika
    Kommentar

    Hallo Dörte

    hi Dörte diese Seite hat einen sogenannten page slug
    zb deinedomain.tld/impressum

    in die robots.txt kommt dann nichts, sondern besser ist es

    und in die header.php des verwendeten Themes:

    <?php if (is_page('impressum')):?>
    <meta name="robots" content="noindex " />
    <?php endif;?>
    
    
  5. Kommentar Autor
    Dieter
    Kommentar

    Ich würde weder das Ausprobieren der Suche Google und Co. als auch das Login nicht ausschließen.

    Gründe:
    Die Suche mit s kann zu besseren bzw. häufigeren Suchtreffern durch Google führen.

    Für das Login habe ich keine Links in meinen WordPress-Installationen. Damit finden normalerweise Suchmaschinen die Links schon nicht. Gebe ich sie in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher.

  6. Kommentar Autor
    Falko
    Kommentar

    Hey,

    das

    füge ich das in den -Bereich oder in den -Bereich?
    Oder ist gar egal?
    Danke

  7. Kommentar Autor
    Falko
    Kommentar

    Uhm, meinen Kommentar hats etwas zerhauen. Wollte wissen ob man den Code oben in den Head-Bereich oder den Body-BEreich tun sollte?

  8. Kommentar Autor
    vale001
    Kommentar

    Danke für diesen tollen Robots.txt tut!
    Hast mir nen riesigen sprung weitergeholfen damit!

  9. Kommentar Autor
    Thomas
    Kommentar

    @Dieter

    „Gebe ich sie…“ (login/register) „…in der robots.txt explizit an, mache ich es bösen Buben wieder unnötig einfacher…“

    Wissen die bösen Buben nicht sowieso wo bei WordPress der Login/Register liegt?

  10. Kommentar Autor
    Monika
    Kommentar

    nein Thomas man kann jeden Ordner von WordPress umbenennen oder woanders hinverschieben,

    doch die Frage ist, ob die sich Zeit nehmen die robots.txt zu lesen

  11. Kommentar Autor
    Dieter
    Kommentar

    @Monika
    Bin kein böser Bube und habe mich mit ihnen auch noch nicht näher beschäftigt.

    Wenn ich aber eine Schwachstelle suchen würde, würde ich mir auch die robots.txt anschauen. Immer wieder kommt es vor, dass dort Verzeichnisse oder Dateipfade enthalten sind, die da nichts zu suchen haben. Wenn dann auch noch kein Passwortschutz angelegt wurde, könnte das einen Angriff erleichtern.

  12. Kommentar Autor
    Anna
    Kommentar

    Danke, ist super, ich hab damit echt schon meine schwierigkeiten gehabt.

    Anna

  13. Kommentar Autor
    Werner Gottschlich
    Kommentar

    Hallo, ist es richtig, auch die sitemap in die robots.txt einzutragen?