Aide:Robots.txt

From Miraheze Meta, Miraheze's central coordination wiki
This page is a translated version of the page Help:Robots.txt and the translation is 100% complete.

Qu'est-ce que robots.txt ?

Il détermine si et quand les robots d'indexation des moteurs de recherche peuvent visiter les pages d'un site Web et les inclure dans l'index du moteur de recherche.

Comment puis-je le modifier ?

Vous pouvez modifier votre propre robots.txt depuis votre wiki, sur la page MediaWiki:Robots.txt. Cela s'ajoutera à notre global robots.txt. MediaWiki n'autorisera jamais l'indexation de pages spéciales ou d'api.php.

Que puis-je y mettre ?

Robots.txt prend en charge de nombreux mots clés liés à l'indexation. Ceci comprend:

  • User-agent:[Obligatoire, un ou plusieurs par groupe] La directive spécifie le nom du client automatique appelé crawler du moteur de recherche auquel la règle s'applique. Il s'agit de la première ligne de tout groupe de règles. Les noms des agents utilisateurs Google sont répertoriés dans la liste Google des agents utilisateurs. L'utilisation d'un astérisque (*) correspondra à tous les robots d'exploration, à l'exception des différents robots d'exploration AdsBot, qui doivent être nommés explicitement.[1]
  • Disallow:[Au moins une ou plusieurs entrées Disallow ou Allow par règle] Un annuaire ou une page, par rapport au domaine racine, that you don't want the user agent to crawl. Si la règle fait référence à une page, il doit s'agir du nom complet de la page, comme indiqué dans le navigateur; s'il fait référence à un répertoire, il doit se terminer par une marque /.[1]
  • Allow:[Au moins une ou plusieurs entrées Disallow ou Allow par règle] Un répertoire ou une page, relative au domaine racine, qui peut être explorée par l'agent utilisateur juste mentionné. Ceci est utilisé pour remplacer une directive Disallow pour permettre l'exploration d'un sous-répertoire ou d'une page dans un répertoire non autorisé. Pour une seule page, le nom complet de la page tel qu'indiqué dans le navigateur doit être spécifié. Dans le cas d'un répertoire, la règle doit se terminer par une marque /.[1]

Quel est le format que je dois utiliser ?

La pratique courante serait d'utiliser chaque nouvelle règle sur une nouvelle ligne. Certains moteurs de recherche reconnaissent certains modèles que vous pouvez utiliser dans robots.txt. Par exemple, Disallow: /*example$ correspondra à pattern. * signifie caractère générique, indiquant qu'une partie de la règle peut correspondre à n'importe quelle partie de l'URL. $ est utilisé pour indiquer que l'URL doit se terminer ainsi.

Quels sont quelques exemples ?

Cet exemple interdira l'exploration pour l'agent utilisateur dans User-agent et la chaîne d'URL de Disallow :

User-agent: [user-agent name]
Disallow: [URL string not to be crawled]

Cet exemple interdira l'exploration pour tous les agents utilisateurs pris en charge, et la chaîne d'URL, /example/ :

User-agent: *
Disallow: /example/

Cet exemple interdira l'exploration pour tous les agents utilisateurs pris en charge et pour tout le contenu :

User-agent: *
Disallow: /

Où puis-je le trouver ?

Robots.txt peut toujours être trouvé à subdomain.miraheze.org/robots.txt ou mycustomdomain.tld/robots.txt. Si vous avez récemment basculé votre wiki vers un domaine personnalisé, cela peut prendre quelques jours avant que votre fichier robots.txt ne soit disponible à partir du nouveau domaine personnalisé.

Références