Le référencement dévoile ce qu’on vous cache

photo credit: mikecogh

Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…

Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.

Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…

Et bien sûr les pages spécifiques qu’on veut cacher au monde.

Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches ». Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.

Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.

Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.

Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?

Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).

Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.

Articles en relation :

80 réponses sur “Le référencement dévoile ce qu’on vous cache”

Consultant referencement dit :

28 janvier 2011 à 12:46

Effectivement, voilà une démarche pour le moins contradictoire, laisser des articles en ligne, sans vouloir qu’ils soient trop « visibles »? Peur du Roi Sarkozy et tout de même envie de le taquiner aux entournures?
Dissonance cognitive de webmasters assez parlante…
LaurentB dit :

28 janvier 2011 à 12:52

Il y a clairement méprise sur l’utilisation adéquate d’un robots.txt
Puis c’est clair qu’un moteur tel que Google est trop glouton pour se passer de visiter des pages; même interdites par robots.txt, meta noindex ou désignée par un lien avec attribut nofollow.
Referencement Nantes dit :

28 janvier 2011 à 13:28

Venant d’un site aussi provocateur et grinçant que rue89, j’imagine que le problème doit être bien plus complexe et profond que ça. Ce serait intéressant de leur demander. En tout cas ca n’aura pas empêché Google d’indexer la page !

Amitiés.
pages jaunes dit :

28 janvier 2011 à 14:00

Héhé, super l’annonce « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches» , mais pourquoi a-t-elle été suprimée de l’indexation? Serait-ce volontaire ? Rue 89 se dégonflerait face à notre cher Président? Ah la la, dans ce cas pourquoi publié une telle info? Pour créer le buzz? Tant de questions restées sans réponse….
Android dit :

28 janvier 2011 à 15:39

Rue89 a depuis reçu 250 000 euros en guise de subventions par l’état donc bon, ils ont mis un peu de poussière sous le tapis!
Création de site internet dit :

28 janvier 2011 à 16:23

Surpris également par ces révélations, surtout par rapport à Rue89. Un de ces quatre, les politiciens vont nous pondre une belle loi comme quoi, écrire sur le net sans mentionner son nom, son prénom etc. est passible d’une forte amende et d’une peine de prison (avec sursis)… ^^
douguipat dit :

28 janvier 2011 à 22:23

Un peu de poussières sous le tapis… mais pas de la part de rue89 🙁
En tous cas l’indépendance, ça n’a pas de prix 😉
Aurélien dit :

28 janvier 2011 à 22:23

Utiliser robots.txt pour interdire l’indexation c’est déjà une faute pour un SEO professionnel.
Clairement ils ne savent pas ce qu’ils font.

Google annonce même clairement qu’il n’hésite pas à proposer l’URL d’une page bloquée par robots.txt dans ses pages de résultats.
imotep web dit :

29 janvier 2011 à 11:01

Il est tellement plus simple de supprimer les pages ou de les cacher!!
Le fichier robots.txt est visible celui là!!
Donc, si ces pages sont encore visibles, c’est qu’on veut bien les laisser pour certains !
chasseur immobilier toulouse dit :

29 janvier 2011 à 12:42

Ce qui ne doit pas être vu sur le Net… ne doit pas y être mis ou alors retiré.
Quand ce n’est pas le cas, c’est qu’il y a un intérêt à ce que la visibilité soit toujours là.
colonie equitation dit :

29 janvier 2011 à 13:10

Moi j’opterais plutôt pour une erreur de l’admin. Je ne vois pas d’intérêt à garder un article publié et en interdire l’indexation.
En tout état de cause, j’utilise beaucoup le fichier robots.txt et les moteurs de recherche n’ont jamais indexé de contenu contre ma volonté contrairement à ce que laissent entendre certains commentaires.
Chasseur immobilier Marseille dit :

29 janvier 2011 à 13:50

Perso, je le mets juste pour éviter de générer un code erreur dans les GWT, sinon…….
test remunere dit :

29 janvier 2011 à 15:05

Moi je n’y crois plus à ce fichier robots.txt, google crawle ce qu’il veut de toute façon …
Chasseur immobilier Marseille dit :

29 janvier 2011 à 17:01

Je partage cet avis.
MaxR de Maxadi dit :

31 janvier 2011 à 6:36

Il est pourtant assez simple de ne pas rendre certains articles indexables par les moteurs de recherches en utilisant le fichier robots.txt, sans pour autant lister ces articles !
C’est donc une volonté de la part des administrateurs de ne pas rendre ces articles visibles aux yeux de Google, tout en conservant leur présence sur leur site !
Lisa | Autorépondeur dit :

31 janvier 2011 à 6:38

Il appartient aux administrateurs de ces sites de dévoiler la raison obscure de leur manoeuvre. Ils doivent certainement avoir de bonnes raisons pour agir ainsi.
😉
Chasseur immobilier Marseille dit :

31 janvier 2011 à 10:32

Oui,…ou pas…. simplement par méconnaissance du sujet.
chasseur immobilier toulouse dit :

31 janvier 2011 à 11:02

Tout dépend des sites ; lorsqu’il s’agit de Rue 89 et du sujet pris en exemple par Maxime… il y a de fortes chances qu’il ne s’agisse pas de méconnaissance…
Je partage l’avis de Lisa.
Erik Nicolas (Munchausen) dit :

31 janvier 2011 à 17:16

Salut Maxime

Voici un article comme je les aime. Fouillé, technique, documenté, impertinent et toujours matière à réflexion sur sa propre méthode de travail.

Et un petit peu plus long que ceux auquel tu nous avais habitué ces derniers mois

Merci
Agence web Sutunam dit :

31 janvier 2011 à 17:27

Ca doit etre la plupart du temps pour faire suite à un retour « influant » type:
« Quand je tape XXX sur google je tombe la dessus. Cela me déplait »

Du coup le plus rapide c’est robots.txt + GG WMT et en 1h t’es plus dans l’index, tu gardes ton article avec le traff non moteur et le gars est content.

Personne ne crie à la censure car personne ne lit le robots.txt .
(parfois des gens comme toi le lie 😉 )
Sebastien - tissu japonais dit :

31 janvier 2011 à 18:53

Je suis vraiment d’accord avec laurentB (qui s’y connait de toute façon un tout petit petit peu plus que moi) : Google s’en moque du robot.txt. Et s’il me résindexait mes pages en noindex, j’aurai moins de problèmes de duplicate contant (ça c’était juste pour le coup de gueule).
Quoi qu’il en soit, l’idée est sympa. Je pars lire quelques robots.txt pour voir ce qui est « caché »… ^^
Référencement naturel dit :

1 février 2011 à 14:21

Tout à fait d’accord avec Lisa et chasseur immo Toulouse. Mettons ça dans le compte des méthodes obscures du référencement.Car selon leur réputation il est très difficile de mettre ça dans le cadre d’une simple méconnaissance.
Chasseur immobilier Marseille dit :

1 février 2011 à 14:28

En terme de méthodes obscures, je pense qu’il y a bien pire…. :o)
Transformation plastique dit :

1 février 2011 à 15:48

Ah oui Chausseur immo marseille (rires) !
En tout cas ce serait bien de donner des astuces sur cette démarche plus ou moins contradictoire : mauvaise manipulation ou méthodes obscures…
Communauté mode dit :

2 février 2011 à 1:37

A mon avis, dans notre bulle de « disciples » du grand gourou référencement, On oublie tout simplement que tout le monde n’a pas les mêmes réflexes de référenceurs. Un webmaster pas tellement sensibilisé à ces aspects, pensera avant tout en termes de techniques pour que son site tourne bien, sois facilement crawlable… Il oubliera le côté « mon robots.txt peut servir à m’espionner ou à découvrir des choses sur mon site ».
mad dit :

2 février 2011 à 12:01

Du même avis que Lisa.
En revanche les moteurs d’indexation sont sensés (mais pas censés s’ils veulent récupérer des infos externes comme FB le fait) respecter les consignes du fichier robots.txt .

Pour ma part ça fait des années que je parcours ces fichiers sur les sites d’info 🙂
Déjà parce que souvent, enfin dans les bons sites, on y trouve où se situe le sitemap, si présent (ce qui constitue une bonne pratique). Et ça, c’est utile pour parcourir « à l’ancienne »* un site.

*Quand j’ai commencé sur le *Net, Google n’existait pas… Mon outil favori était SavvySearch, racheté par CNet par la suite. Il collationnait les recherches des autres moteurs. C’est un étudiant que l’a développé dans sa fac aux USA… ça vous rappelle qqc ?
Mon projet immobilier dit :

4 février 2011 à 12:48

Merci pour cette info cela permet de lire des infos cachés. Trop fort !
druidux dit :

5 février 2011 à 15:30

Une info comme ça, ça se partage.
c’est une bonne idée pour voir les pages cachés d’un site.
Si quelqu’un avoait plus infos sur les raisons de rue 89 de les chacher au moteur de recherche ?
immobilier dit :

5 février 2011 à 23:03

Vu le buzz que font ces pages il n’y a aucun intérêt a les cacher
Gael dit :

6 février 2011 à 4:56

Je suis d’accord avec Laurent, il passera tout de meme sur la page !
Gael
C.BENOIT / Tyseo dit :

6 février 2011 à 19:26

On a le fin mot de l’histoire ou pas ? Rue89 ou le Figaro ont-ils expliqués le but de leur manoeuvre (ailleurs sur Internet car ici, il n’y a rien de neuf) ?
chasseur immobilier Toulouse dit :

6 février 2011 à 21:19

A ma connaissance non… Mais c’est évident qu’il y a une raison.
Peut-être, tout simplement, un moyen de faire parler d’eux…
Eric@Salvador de Bahia dit :

7 février 2011 à 11:40

je susi tt à fait d’accord avec Agence web Sutunam
cela sent le retour de flamme de quelqu’un d’influant,
oui le résultat me déplait, pouvez vous enlever cela de Google.

merci d’avance

sans commentaires
🙂
et on ne manipule pas les sites de journalistes
oui je sais la marmotte elle plie le papier du chocolat.
🙂
Traduction contrat dit :

8 février 2011 à 12:14

Ont peut vouloir publier sans être visible et gênant il semblerais.
cedric dit :

8 février 2011 à 15:00

j’ai remarqué que les robots ne respecte pas toujours les instructions du fichier ,comme yahoo semble ignorer robot.text
Chasseur immobilier Lille dit :

8 février 2011 à 15:08

Yahoo, je l’avais remarqué, qu’en est il de Bing ?….Néanmoins, ce sont des moteurs tellement marginaux
cedric dit :

8 février 2011 à 15:15

arrêtez de dire que c’est des moteurs marginaux ,ils représentent 30% du trafic
Chasseur immobilier Lille dit :

8 février 2011 à 15:21

Tant que ça ?
Actualités de la mode dit :

8 février 2011 à 15:42

@ Chasseur immobilier : je crois que Cedric s’enflamme un peu. D’apres les chiffres que j’ai, Google représente environ 90% des recherches en france. En revanche, je suis quand meme ok avec Cedric sur le fait qu’il ne faut pas mépriser les autres moteurs. En particulier Bing dont l’importance devrait pas mal monter dans les mois et années à venir. Pour info, Bing c’est déjà environ 30% des recherches aux USA…
chasseur immobilier toulouse dit :

8 février 2011 à 16:08

Et ce qui se passe aux Etats-Unis fini toujours par traverser l’Atlantique avec quelques mois/années de décalage… Donc, effectivement, à prendre en compte pour l’avenir.
Actualités de la mode dit :

8 février 2011 à 16:19

Ben oui, ça risque de se faire comme ça… comme souvent. D’ailleurs, j’ai envie de faire un parallèle avec l’Iphone qui a en France, une part de marché beaucoup plus importante qu’aux USA.

Conclusion : sommes nous plus suivistes en France qu’Outre Atlantique ou sommes nous tout simplement plus prudents et plus lents face aux nouveaux produits???
Location appartement Ile Rousse dit :

8 février 2011 à 17:01

A la lecture de tous les commentaires, il semblerait que le fichier robots.txt ne serve plus à grand chose…
Actualités de la mode dit :

8 février 2011 à 17:25

Alors soit vous avez lu en diagonale, soit vous n’avez pas tout capté!
Sans vouloir vous offenser
Chasseur immobilier Lille dit :

8 février 2011 à 17:32

@ actualités : c’est vrai que j’avais plutôt cet ordre de grandeur en tête….
Petites annonces gratuites dit :

8 février 2011 à 18:21

Salut,

Je suis un peut déçut de cet article .. « Le référencement dévoile ce qu’on vous cache », un si jolie titre pour un simple article sur le robots.txt et l’utilisation qu’en font certains sites. Je m’attendais à quelques astuces, secret, etc… sur le référencement :(.

Cdt
Cabinet formation Tunisie dit :

10 février 2011 à 13:58

J’ai du mal à imaginer que Rue 89 cède à la censure, si réellement la censure des sites d’acus en ligne existe en France, ce dont je doute un peu.
location des voitures a casablanca dit :

12 février 2011 à 19:28

je viens de découvrir votre site je vais le garder dans mes favoris
condoléances dit :

21 février 2011 à 17:49

Une bonne info et des commentaires intéressants
je garde votre URL
linesoft dit :

22 février 2011 à 18:29

Mais mais pourquoi ??? la gestion de ce fichier n’est-elle pas encore rentrée dans les mœurs de tout ceux qui disent faire du référencement propre ?
Chasseur immobilier dit :

22 février 2011 à 18:36

Heureusement que les bases d’un référencement propre ne sont pas uniquement fondées sur l’utilisation de ce fichier….

Les commentaires sont fermés.