Ah, les joies du référencement: un monde si particulier, avec ses codes, ses techniques, ses méthodes obscures, ses astuces du jour qui sont la solution à tous les maux…
Tout le monde sait à quoi sert le fichier robots.txt: il permet de donner des consignes aux moteurs. Par exemple, on peut dire à Google qu’il peut visiter tout le site mais refuser à Bing d’accéder à un dossier ou certaines pages.
Il est donc normal de mettre dans le robots.txt la liste des répertoires et pages qu’on ne veut pas que les moteurs lisent et encore moins indexent: fichiers d’admin, répertoire cgi-bin, dossiers de mise en cache, etc…
Et bien sûr les pages spécifiques qu’on veut cacher au monde.
Prenez le journal en ligne Rue 89. En 2008, il a publié un article au doux titre de « En onze mois, Sarkozy a produit autant de CO2 que 823 vaches ». Cet article n’est pas indexé par Google ou les autres moteurs parce qu’il est dans le robots.txt du site. (Vous trouverez facilement cet article ailleurs puisqu’il a été diffusé sur de nombreux autres sites). Par contre il est toujours présent sur Rue 89. Vous en voulez l’adresse ? Lisez le fichier robots.txt du site.
Prenez L’Internaute. Le site publie des critiques, des commentaires, des communiqués. Certains sont ensuite supprimés. Vous en voulez la liste ? Lisez le fichier robots.txt du site.
Prenez L’Express. L’hebdomadaire publie de nombreuses enquêtes mais il faut croire que certaines dérangent pour qu’elles se retrouvent interdites de lecture par les moteurs. Lisez le fichier robots.txt du site.
Dans tous les cas, si ces articles n’ont plus lieu d’être, pourquoi n’ont-ils pas été supprimés des sites en question ?
Le fichier robots.txt ne cache rien, il indique juste aux moteurs que vous préférez que ces pages ne soient pas indexées. Les moteurs n’ont aucune obligation d’en tenir compte (même si c’est une attente normale de la part des éditeurs).
Par ailleurs, si vous avez des choses à cacher, il est peut-être judicieux de ne pas les lister dans un fichier accessible publiquement par tous.
C’est certain qu’il est important de revenir au fondement, notamment la structure du site.
Quant à la transparence, est-il utopique de croire qu’elle peut exister sur la toile ?
Ah mais totalement d’accord ! Le fichier robots.txt n’est pas le meilleur endroit pour cacher ses dossier ou ses pages. Utilisons plutôt le fichier .htaccess
Le fichier .htaccess ne concerne que les serveurs Apache, ce qui n’est pas le cas de tout le monde….
@ Chasseur immobilier : exact. Et chaque webmaster devra adapter à la technologie serveur qu’il utilise, merci pour cette précision et si tu connais d’autres méthodes, merci de partager
je suis tout a fait d’accore avec ca gère
le fichier .htaccess est trés bien pour indiquer a google se qu’il faut visiter ou pas
Evidement que pour les serveurs Apache comme dit Chasseur immobilier
Le robot.txt est d’une approche plus simpliste mais reste universel.
Oui. Et de fait très utile.
Oui c’est vraie, mais rien n’empéche de y mettre les deux fichiers
je croie si je ne me trompe pas que le fichier .htaccess est prioritaire
Il est prioritaire car sert également pour les redirections, mais n’est pas universel
Merci Chasseur immobilier pour cette precision
je n’en étais pas sur
En meme temps, le robots.txt sert également à corriger ce qui n’a pas été bien défini dans le htaccess pour beaucoup de problèmes et ça ça pose problème!
C’est bien la première fois que je vois un Disallow dans ce fichier appliqué à un article. C’est clairement une méconnaissance de l’utilité de ce fichier. Et puis, on leur pas dit chez Rue 89 que Google ne se prive pas de contenu ? Un vulgaire fichier Robots.txt ? Trop peu pour lui.
Je suis d’accord avec toi @Laurent : Ils auraient pus rajouter un « noindex », ou « ferme les yeux » ou « passe ton chemin ici il n’y a rien a voir », ce serait peut être plus efficace
@Homo Economicus : Alors pas tout à fait d’accord avec toi tout de meme : les robots « sérieux » comme googlebot respectent le robots.txt du moment que sa syntaxe est correcte… Contrairement à certains webmasters curieux ^^
Article et commentaires très instructifs !
Je me sers peu du fchier robots.txt
Je ne comprend pas bien l’intérêt d’empêcher les moteurs de consulter certaines pages …
Gérer des informations sans les divulguer par exemple….
@ Bière Parisienne : Sans vouloir te vexer, là il faut reprendre les bases du référencement depuis le début…
De tout ça il faut retenir ce qui était vrai hier,ne l’ai plus forcement aujourd’hui ,j’ai du mal a voir où sont les constantes en matière de référencement
Qui détient les clés a part Google ,Yahoo ou bing ?
Je me sers du fichier « robot.txt » de manière très modérée !
Pareil, juste pour qu’il existe au niveau des GWT.
Je ne me sers que robot.txt pour ma part…
This is a really excellent read for me. Must agree that you are one of the best bloggers I ever saw. Thanks for posting this useful article.
Un bon petit robot.txt bien ficelé et c’est suffisant.
Ce qui compte, fondamentalement, n’est-il pas que l’internaute est une accès à l’information lisible, que celle-ci soit la plus transparente et la plus complète possible ?
Merci pour ces précisions interessantes.
L’important, c’est le visiteur c’est vrai. C’est pour lui que doit doit être construite toute la stratégie d’acquisition de trafic. Même si les référenceurs, pour certains, ont pris un chemin inverse et ont oublié les fondamentaux. C’est pour cela que les mises à jour des moteurs de recherche sont importantes.
C’est aussi que ces fondamentaux ne sont pas si stables.
Ca viendra avec le temps…..
It’s good to see this information in your post, I was looking the same but there was not any proper resource, thanks now I have the link which I was looking for my research.
C’est vrai que le fichier robot de l’express est édifiant.