Le référencement dévoile ce qu’on vous cache

Luc Bag
Creative Commons License photo credit: mikecogh

Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…

Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.

Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…

Et bien sûr les pages spécifiques qu’on veut cacher au monde.

Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches ». Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.

Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.

Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.

Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?

Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).

Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.

Articles en relation :

Be Sociable, Share!

80 réponses sur “Le référencement dévoile ce qu’on vous cache”

  1. Effectivement, voilà une démarche pour le moins contradictoire, laisser des articles en ligne, sans vouloir qu’ils soient trop « visibles »? Peur du Roi Sarkozy et tout de même envie de le taquiner aux entournures?
    Dissonance cognitive de webmasters assez parlante…

  2. Il y a clairement méprise sur l’utilisation adéquate d’un robots.txt
    Puis c’est clair qu’un moteur tel que Google est trop glouton pour se passer de visiter des pages; même interdites par robots.txt, meta noindex ou désignée par un lien avec attribut nofollow.

  3. Venant d’un site aussi provocateur et grinçant que rue89, j’imagine que le problème doit être bien plus complexe et profond que ça. Ce serait intéressant de leur demander. En tout cas ca n’aura pas empêché Google d’indexer la page !

    Amitiés.

  4. Héhé, super l’annonce « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches» , mais pourquoi a-t-elle été suprimée de l’indexation? Serait-ce volontaire ? Rue 89 se dégonflerait face à notre cher Président? Ah la la, dans ce cas pourquoi publié une telle info? Pour créer le buzz? Tant de questions restées sans réponse….

  5. Rue89 a depuis reçu 250 000 euros en guise de subventions par l’état donc bon, ils ont mis un peu de poussière sous le tapis!

  6. Surpris également par ces révélations, surtout par rapport à Rue89. Un de ces quatre, les politiciens vont nous pondre une belle loi comme quoi, écrire sur le net sans mentionner son nom, son prénom etc. est passible d’une forte amende et d’une peine de prison (avec sursis)… ^^

  7. Utiliser robots.txt pour interdire l’indexation c’est déjà une faute pour un SEO professionnel.
    Clairement ils ne savent pas ce qu’ils font.

    Google annonce même clairement qu’il n’hésite pas à proposer l’URL d’une page bloquée par robots.txt dans ses pages de résultats.

  8. Il est tellement plus simple de supprimer les pages ou de les cacher!!
    Le fichier robots.txt est visible celui là!!
    Donc, si ces pages sont encore visibles, c’est qu’on veut bien les laisser pour certains !

  9. Moi j’opterais plutôt pour une erreur de l’admin. Je ne vois pas d’intérêt à garder un article publié et en interdire l’indexation.
    En tout état de cause, j’utilise beaucoup le fichier robots.txt et les moteurs de recherche n’ont jamais indexé de contenu contre ma volonté contrairement à ce que laissent entendre certains commentaires.

  10. Il est pourtant assez simple de ne pas rendre certains articles indexables par les moteurs de recherches en utilisant le fichier robots.txt, sans pour autant lister ces articles !
    C’est donc une volonté de la part des administrateurs de ne pas rendre ces articles visibles aux yeux de Google, tout en conservant leur présence sur leur site !

  11. Salut Maxime

    Voici un article comme je les aime. Fouillé, technique, documenté, impertinent et toujours matière à réflexion sur sa propre méthode de travail.

    Et un petit peu plus long que ceux auquel tu nous avais habitué ces derniers mois

    Merci

  12. Ca doit etre la plupart du temps pour faire suite à un retour « influant » type:
    « Quand je tape XXX sur google je tombe la dessus. Cela me déplait »

    Du coup le plus rapide c’est robots.txt + GG WMT et en 1h t’es plus dans l’index, tu gardes ton article avec le traff non moteur et le gars est content.

    Personne ne crie à la censure car personne ne lit le robots.txt .
    (parfois des gens comme toi le lie 😉 )

  13. Je suis vraiment d’accord avec laurentB (qui s’y connait de toute façon un tout petit petit peu plus que moi) : Google s’en moque du robot.txt. Et s’il me résindexait mes pages en noindex, j’aurai moins de problèmes de duplicate contant (ça c’était juste pour le coup de gueule).
    Quoi qu’il en soit, l’idée est sympa. Je pars lire quelques robots.txt pour voir ce qui est « caché »… ^^

  14. Tout à fait d’accord avec Lisa et chasseur immo Toulouse. Mettons ça dans le compte des méthodes obscures du référencement.Car selon leur réputation il est très difficile de mettre ça dans le cadre d’une simple méconnaissance.

  15. A mon avis, dans notre bulle de « disciples » du grand gourou référencement, On oublie tout simplement que tout le monde n’a pas les mêmes réflexes de référenceurs. Un webmaster pas tellement sensibilisé à ces aspects, pensera avant tout en termes de techniques pour que son site tourne bien, sois facilement crawlable… Il oubliera le côté « mon robots.txt peut servir à m’espionner ou à découvrir des choses sur mon site ».

  16. Du même avis que Lisa.
    En revanche les moteurs d’indexation sont sensés (mais pas censés s’ils veulent récupérer des infos externes comme FB le fait) respecter les consignes du fichier robots.txt .

    Pour ma part ça fait des années que je parcours ces fichiers sur les sites d’info 🙂
    Déjà parce que souvent, enfin dans les bons sites, on y trouve où se situe le sitemap, si présent (ce qui constitue une bonne pratique). Et ça, c’est utile pour parcourir « à l’ancienne »* un site.

    *Quand j’ai commencé sur le *Net, Google n’existait pas… Mon outil favori était SavvySearch, racheté par CNet par la suite. Il collationnait les recherches des autres moteurs. C’est un étudiant que l’a développé dans sa fac aux USA… ça vous rappelle qqc ?

  17. Une info comme ça, ça se partage.
    c’est une bonne idée pour voir les pages cachés d’un site.
    Si quelqu’un avoait plus infos sur les raisons de rue 89 de les chacher au moteur de recherche ?

  18. On a le fin mot de l’histoire ou pas ? Rue89 ou le Figaro ont-ils expliqués le but de leur manoeuvre (ailleurs sur Internet car ici, il n’y a rien de neuf) ?

  19. je susi tt à fait d’accord avec Agence web Sutunam
    cela sent le retour de flamme de quelqu’un d’influant,
    oui le résultat me déplait, pouvez vous enlever cela de Google.

    merci d’avance

    sans commentaires
    🙂
    et on ne manipule pas les sites de journalistes
    oui je sais la marmotte elle plie le papier du chocolat.
    🙂

  20. j’ai remarqué que les robots ne respecte pas toujours les instructions du fichier ,comme yahoo semble ignorer robot.text

  21. @ Chasseur immobilier : je crois que Cedric s’enflamme un peu. D’apres les chiffres que j’ai, Google représente environ 90% des recherches en france. En revanche, je suis quand meme ok avec Cedric sur le fait qu’il ne faut pas mépriser les autres moteurs. En particulier Bing dont l’importance devrait pas mal monter dans les mois et années à venir. Pour info, Bing c’est déjà environ 30% des recherches aux USA…

  22. Ben oui, ça risque de se faire comme ça… comme souvent. D’ailleurs, j’ai envie de faire un parallèle avec l’Iphone qui a en France, une part de marché beaucoup plus importante qu’aux USA.

    Conclusion : sommes nous plus suivistes en France qu’Outre Atlantique ou sommes nous tout simplement plus prudents et plus lents face aux nouveaux produits???

  23. Salut,

    Je suis un peut déçut de cet article .. « Le référencement dévoile ce qu’on vous cache », un si jolie titre pour un simple article sur le robots.txt et l’utilisation qu’en font certains sites. Je m’attendais à quelques astuces, secret, etc… sur le référencement :(.

    Cdt

  24. Mais mais pourquoi ??? la gestion de ce fichier n’est-elle pas encore rentrée dans les mœurs de tout ceux qui disent faire du référencement propre ?

Les commentaires sont fermés.