Robots.txt ( contre l’indexation sur les moteurs de recherche )

Le fichier robots.txt permet d’autoriser ou d’interdire l’accès à son site, si ce n’est seulement de restreindre certains répertoires aux robots inclus dans le fichier. Il est à utiliser en complément de la commande NOFOLLOW par exemple qui n’est pas une condition suffisante pour bloquer l’indexation d’un contenu dans les moteurs de recherche.

Pour cela il suffit simplement de placer ce fichier robots.txt à la racine de son site qui se chargera de :

- bloquer l’indexation de certaines parties du site,
- d’éviter des erreurs 404 superflues
- d’interdire le crawl des robots spammeurs

Voici un exemple de robots.txt :

User-agent: *
Disallow:

User-agent: TurnitinBot
Disallow: /

User-agent: ConveraCrawler
Disallow: /

User-agent: QuepasaCreep
Disallow: /

User-agent: Jetbot
Disallow: /

Si vous avez peur qu’il soit mal configuré et qu’il soit la cause d’une mauvaise indexation de votre site sur les moteurs de recherche, vous pouvez toujours le vérifier dans votre console webmaster tools, section « Accès du robot d’exploration ».

Je sens que vous voulez en savoir plus sur la configuration de ce fichier, alors je vous conseil la doc en provenance direct de chez Google : Robots.txt et si vous avez un pépin je vous fais la maintenant en commentaire.

1 Réponse sur l'article “Robots.txt ( contre l’indexation sur les moteurs de recherche )”

  1. Keeg dit :

    La difficulté, c’est que parfois Google, Bing et les autres n’en ont rien à faire :/

Ajouter un commentaire

© Chronoduweb