Créer un fichier robots.txt : empêcher le référencement de pages web

Comment faire pour empêcher l’enregistrement d’une page sur un moteur de recherche ? C’est à cette question que nous répondrons dans ce tutoriel. Pour cela, nous écrirons un fichier robots.txt. Qu’est-ce qu’un fichier robots.txt ? Comme son nom l’indique, un fichier robots.txt est un fichier texte destiné les robots indexeur des moteurs de recherche.

Plan du tutoriel sur les fichiers bots :

  • Introduction au fichiers Robots.txt
  • Créer son premier fichier “robots.txt”
  • Explications sur la rédaction du fichier
  • Quelques exemples de code

Les réponses aux questions suivantes se trouvent dans le tutoriel :

  • Comment empêcher l’indexation d’une page sur un moteur de recherche ?
  • Qu’est-ce qu’un fichier robots.txt et à quoi ça sert ?
  • Comment créer un fichier robots.txt

Introduction au fichiers Robots.txt

Qu’est-ce qu’un fichier robots.txt ? Comme son nom l’indique, un fichier robots.txt est un fichier texte destiné les robots.Il contient en effet des instructions au sujet de votre site.

Quels types d’instructions ? Le but principal d’une tel fichier est de dire aux robots indexeurs quelles pages il peuvent indexer et quelles pages il ne doivent pas enregistrer. En fait, le fichier .txt contient uniquement des règles d’exclusion qui définissent le moteur de recherche concerné et les fichiers à ignorer. Ainsi, on pourra dire écrire : “Si tu es google, ne lis pas ces pages-ci !”. Ceci peut être intéressant pour éviter le référencement de pages en constructions.

Que se passe t’il si je ne mets pas de fichier robots.txt ? Dans ce cas, le robot considère qu’il peut tout indexer. Toutes les pages qu’il parcourt seront alors enregistrées sur son moteur de recherche.

Créer son premier fichier “robots.txt”

Créer un fichier robots.txt est très simple. Pour cela, il vous suffit d’ouvrir un simple éditeur de texte (comme Bloc-notes ou Notepad++ par exemple).

Ensuite, créez un nouveau fichier et collez-y le code suivant (des explications viendront plus tard) :

# Fichier Robots.txt
User-Agent: *
Disallow:

Enregistrez ensuite le document sous le nom « robots.txt » puis connectez-vous à votre serveur distant et envoyez le à la racine de votre site.

Attention ! Certains hébergeurs gratuits ne permettent pas l’accès à la racine des sites. Si vous êtes hébergé chez un tel hébergeur, vous ne pourrez malheureusement pas utiliser de fichier robots.txt.

Explications sur le contenu

Fichier robots.txt référencement internet

Votre fichier robots.txt

Maintenant que vous avez mis votre premier fichier robots.txt en ligne, des explications sur le code s’imposent.

# Fichier Robots.txt
User-Agent: *
Disallow:

La première ligne est un commentaire. Tout commentaire doit commencer par un #.

La deuxième ligne contient des informations sur le “User-Agent” (ou si vous préférez, le nom du robot indexeur). C’est là qu’on indique quels moteurs de recherche sont concernés par les instructions qui vont suivre. Ici, j’ai mis une astérisque (*). Ce symbole signifie “tous les robots”.

Si vous désirez indiquer un robot en particulier, voici une courte liste des principaux robots et leur moteur de recherche associé.

  • Google : Googlebot
  • Yahoo : Yahoo! Slurp
  • Msn : Msnbot
  • Alta Vista : Scooter
  • Lycos : T-Rex
  • Excite : ArchitextSpider
  • InfoSeek: InfoSeek Sidewinder
  • Voilà : Echo

La troisième ligne contient le noms des pages que les moteurs de recherche ne doivent pas indexer. Ici, comme rien n’est indiqué, les robots vont indexer toutes les pages de votre site.

Quelques exemples de code

Exclusion de plusieurs page :

User-Agent: *
Disallow: /repertoire/sous-repertoire/page.html
Disallow: /repertoire/sous-repertoire/page2.html
Disallow: /repertoire/sous-repertoire/page3.html

Exclusion de toutes les pages d’un répertoire et ses sous-dossiers :

User-Agent: *
Disallow: /repertoire/

Exclusion d’un robot :

User-Agent: LeRobotconcerne
Disallow: /
#Disallow: / empêche l’indexation de toutes vos pages (tous les sous-dossiers de la racine de votre site)
User-Agent: *
Disallow:

Leave a Reply

Your email address will not be published. Required fields are marked *

CommentLuv badge