Hilfe:Robots.txt

From Miraheze Meta, Miraheze's central coordination wiki
This page is a translated version of the page Help:Robots.txt and the translation is 100% complete.

Was ist robots.txt?

Sie bestimmt, ob und wann die Webcrawler der Suchmaschinen die Seiten einer Website besuchen und in den Index der Suchmaschine aufnehmen können.

Wie kann ich es ändern?

Du kannst deine eigene robots.txt in deinem Wiki auf der Seite MediaWiki:Robots.txt ändern. Diese wird an unsere globale robots.txt angehängt. MediaWiki erlaubt niemals die Indizierung von speziellen Seiten oder api.php.

Was kann ich da rein tun?

Die Robots.txt unterstützt viele indexierungsrelevante Schlüsselwörter. Dazu gehören:

  • User-agent:[Erforderlich, eine oder mehrere pro Gruppe] Die Direktive gibt den Namen des automatischen Clients an, der als Suchmaschinen-Crawler bekannt ist und für den die Regel gilt. Dies ist die erste Zeile für jede Regelgruppe. Die Namen der Google User Agents sind in der Google Liste der User Agents aufgeführt. Wenn du ein Sternchen (*) verwendest, werden alle Crawler mit Ausnahme der verschiedenen AdsBot-Crawler berücksichtigt, die explizit genannt werden müssen.[1]
  • Disallow:[Mindestens ein oder mehrere Disallow oder Allow Einträge pro Regel] Ein Verzeichnis oder eine Seite, relativ zur Root-Domain, die der User Agent nicht crawlen soll. Wenn sich die Regel auf eine Seite bezieht, sollte es der vollständige Seitenname sein, wie er im Browser angezeigt wird; wenn sie sich auf ein Verzeichnis bezieht, sollte sie mit einer /-Markierung enden.[1]
  • Allow:[Mindestens ein oder mehrere Disallow oder Allow Einträge pro Regel] Ein Verzeichnis oder eine Seite, relativ zur Root-Domain, die von dem gerade genannten User-Agent gecrawlt werden darf. Dies wird verwendet, um eine Disallow-Direktive außer Kraft zu setzen und das Crawlen eines Unterverzeichnisses oder einer Seite in einem nicht erlaubten Verzeichnis zu erlauben. Bei einer einzelnen Seite sollte der vollständige Seitenname, wie er im Browser angezeigt wird, angegeben werden. Im Falle eines Verzeichnisses sollte die Regel mit einem / Zeichen enden.[1]

Welches Format sollte ich verwenden?

Üblicherweise wird jede neue Regel in einer neuen Zeile verwendet. Einige Suchmaschinen erkennen einige Muster, die du in der robots.txt verwenden kannst. Zum Beispiel entspricht Disallow: /*example$ dem Muster. * ist ein Platzhalter, der angibt, dass ein Teil der Regel auf jeden Teil der URL passen kann. $ wird verwendet, um anzuzeigen, dass die URL auf diese Weise enden muss.

Was sind einige Beispiele?

In diesem Beispiel wird das Crawling für den User-Agent in User-agent und den URL-String aus Disallow untersagt:

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

In diesem Beispiel wird das Crawling für alle unterstützten User Agents und die URL-Zeichenkette /example/ verboten:

User-agent: *
Disallow: /example/

In diesem Beispiel wird das Crawling für alle unterstützten User Agents und alle Inhalte unterbunden:

User-agent: *
Disallow: /

Wo kann ich es finden?

Die robots.txt findest du immer unter subdomain.miraheze.org/robots.txt oder mycustomdomain.tld/robots.txt. Wenn du dein Wiki kürzlich auf eine benutzerdefinierte Domain umgestellt hast, kann es ein paar Tage dauern, bis deine robots.txt-Datei von der neuen benutzerdefinierten Domain aus verfügbar ist.

Referenzen