Le référencement dévoile ce qu’on vous cache

Luc Bag
Creative Commons License photo credit: mikecogh

Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…

Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.

Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…

Et bien sûr les pages spécifiques qu’on veut cacher au monde.

Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches ». Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.

Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.

Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.

Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?

Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).

Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.

Articles en relation :

80 réponses sur “Le référencement dévoile ce qu’on vous cache”

  1. Ah mais totalement d’accord ! Le fichier robots.txt n’est pas le meilleur endroit pour cacher ses dossier ou ses pages. Utilisons plutôt le fichier .htaccess

  2. @ Chasseur immobilier : exact. Et chaque webmaster devra adapter à la technologie serveur qu’il utilise, merci pour cette précision et si tu connais d’autres méthodes, merci de partager

  3. je suis tout a fait d’accore avec ca gère
    le fichier .htaccess est trés bien pour indiquer a google se qu’il faut visiter ou pas
    Evidement que pour les serveurs Apache comme dit Chasseur immobilier

  4. Oui c’est vraie, mais rien n’empéche de y mettre les deux fichiers
    je croie si je ne me trompe pas que le fichier .htaccess est prioritaire

  5. En meme temps, le robots.txt sert également à corriger ce qui n’a pas été bien défini dans le htaccess pour beaucoup de problèmes et ça ça pose problème!

  6. C’est bien la première fois que je vois un Disallow dans ce fichier appliqué à un article. C’est clairement une méconnaissance de l’utilité de ce fichier. Et puis, on leur pas dit chez Rue 89 que Google ne se prive pas de contenu ? Un vulgaire fichier Robots.txt ? Trop peu pour lui.

    Je suis d’accord avec toi @Laurent : Ils auraient pus rajouter un « noindex », ou « ferme les yeux » ou « passe ton chemin ici il n’y a rien a voir », ce serait peut être plus efficace

  7. @Homo Economicus : Alors pas tout à fait d’accord avec toi tout de meme : les robots « sérieux » comme googlebot respectent le robots.txt du moment que sa syntaxe est correcte… Contrairement à certains webmasters curieux ^^

  8. De tout ça il faut retenir ce qui était vrai hier,ne l’ai plus forcement aujourd’hui ,j’ai du mal a voir où sont les constantes en matière de référencement
    Qui détient les clés a part Google ,Yahoo ou bing ?

  9. L’important, c’est le visiteur c’est vrai. C’est pour lui que doit doit être construite toute la stratégie d’acquisition de trafic. Même si les référenceurs, pour certains, ont pris un chemin inverse et ont oublié les fondamentaux. C’est pour cela que les mises à jour des moteurs de recherche sont importantes.

Les commentaires sont fermés.