Le référencement dévoile ce qu’on vous cache

photo credit: mikecogh

Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…

Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.

Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…

Et bien sûr les pages spécifiques qu’on veut cacher au monde.

Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches ». Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.

Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.

Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.

Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?

Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).

Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.

Articles en relation :

80 réponses sur “Le référencement dévoile ce qu’on vous cache”

chasseur immobilier toulouse dit :

22 février 2011 à 18:43

C’est certain qu’il est important de revenir au fondement, notamment la structure du site.
Quant à la transparence, est-il utopique de croire qu’elle peut exister sur la toile ?
ca gère dit :

28 février 2011 à 17:01

Ah mais totalement d’accord ! Le fichier robots.txt n’est pas le meilleur endroit pour cacher ses dossier ou ses pages. Utilisons plutôt le fichier .htaccess
Chasseur immobilier dit :

1 mars 2011 à 0:01

Le fichier .htaccess ne concerne que les serveurs Apache, ce qui n’est pas le cas de tout le monde….
ca gère dit :

1 mars 2011 à 18:08

@ Chasseur immobilier : exact. Et chaque webmaster devra adapter à la technologie serveur qu’il utilise, merci pour cette précision et si tu connais d’autres méthodes, merci de partager
strategie-web dit :

2 mars 2011 à 11:52

je suis tout a fait d’accore avec ca gère
le fichier .htaccess est trés bien pour indiquer a google se qu’il faut visiter ou pas
Evidement que pour les serveurs Apache comme dit Chasseur immobilier
Chasseur immobilier dit :

2 mars 2011 à 12:22

Le robot.txt est d’une approche plus simpliste mais reste universel.
chasseur immobilier toulouse dit :

2 mars 2011 à 12:41

Oui. Et de fait très utile.
strategie-web dit :

2 mars 2011 à 15:06

Oui c’est vraie, mais rien n’empéche de y mettre les deux fichiers
je croie si je ne me trompe pas que le fichier .htaccess est prioritaire
Chasseur immobilier dit :

2 mars 2011 à 16:18

Il est prioritaire car sert également pour les redirections, mais n’est pas universel
strategie-web dit :

2 mars 2011 à 16:28

Merci Chasseur immobilier pour cette precision
je n’en étais pas sur
Actualités de la mode dit :

2 mars 2011 à 22:12

En meme temps, le robots.txt sert également à corriger ce qui n’a pas été bien défini dans le htaccess pour beaucoup de problèmes et ça ça pose problème!
L'Homo Economicus dit :

11 mars 2011 à 6:37

C’est bien la première fois que je vois un Disallow dans ce fichier appliqué à un article. C’est clairement une méconnaissance de l’utilité de ce fichier. Et puis, on leur pas dit chez Rue 89 que Google ne se prive pas de contenu ? Un vulgaire fichier Robots.txt ? Trop peu pour lui.

Je suis d’accord avec toi @Laurent : Ils auraient pus rajouter un « noindex », ou « ferme les yeux » ou « passe ton chemin ici il n’y a rien a voir », ce serait peut être plus efficace
Mode homme dit :

16 mars 2011 à 17:40

@Homo Economicus : Alors pas tout à fait d’accord avec toi tout de meme : les robots « sérieux » comme googlebot respectent le robots.txt du moment que sa syntaxe est correcte… Contrairement à certains webmasters curieux ^^
Formation Google Adwords dit :

22 mars 2011 à 15:06

Article et commentaires très instructifs !

Je me sers peu du fchier robots.txt
Bière Parisienne dit :

3 avril 2011 à 15:20

Je ne comprend pas bien l’intérêt d’empêcher les moteurs de consulter certaines pages …
Chasseur immobilier dit :

3 avril 2011 à 18:30

Gérer des informations sans les divulguer par exemple….
Actualités de la mode dit :

6 avril 2011 à 15:42

@ Bière Parisienne : Sans vouloir te vexer, là il faut reprendre les bases du référencement depuis le début…
cedric dit :

28 juin 2011 à 9:21

De tout ça il faut retenir ce qui était vrai hier,ne l’ai plus forcement aujourd’hui ,j’ai du mal a voir où sont les constantes en matière de référencement
Qui détient les clés a part Google ,Yahoo ou bing ?
lionel dit :

31 octobre 2011 à 14:27

Je me sers du fichier « robot.txt » de manière très modérée !
Chasseur immobilier Toulouse dit :

31 octobre 2011 à 14:49

Pareil, juste pour qu’il existe au niveau des GWT.
galaxy note dit :

13 novembre 2011 à 11:44

Je ne me sers que robot.txt pour ma part…
Chicago bathroom remodeling dit :

13 novembre 2011 à 14:34

This is a really excellent read for me. Must agree that you are one of the best bloggers I ever saw. Thanks for posting this useful article.
Chasseur immobilier Yvelines dit :

14 janvier 2012 à 11:07

Un bon petit robot.txt bien ficelé et c’est suffisant.
chasseur immobilier Toulouse dit :

15 janvier 2012 à 12:27

Ce qui compte, fondamentalement, n’est-il pas que l’internaute est une accès à l’information lisible, que celle-ci soit la plus transparente et la plus complète possible ?
théodore dit :

17 janvier 2012 à 4:49

Merci pour ces précisions interessantes.
Roger - Cosmétiques bio dit :

18 janvier 2012 à 8:41

L’important, c’est le visiteur c’est vrai. C’est pour lui que doit doit être construite toute la stratégie d’acquisition de trafic. Même si les référenceurs, pour certains, ont pris un chemin inverse et ont oublié les fondamentaux. C’est pour cela que les mises à jour des moteurs de recherche sont importantes.
Chasseur immobilier Yvelines dit :

18 janvier 2012 à 11:34

C’est aussi que ces fondamentaux ne sont pas si stables.
Chasseur immobilier Entreprise dit :

8 février 2012 à 18:56

Ca viendra avec le temps…..
authentic christian louboutin dit :

12 avril 2012 à 2:17

It’s good to see this information in your post, I was looking the same but there was not any proper resource, thanks now I have the link which I was looking for my research.
Chasseur immobilier Arcachon dit :

22 avril 2012 à 16:55

C’est vrai que le fichier robot de l’express est édifiant.

Les commentaires sont fermés.