Référence site sur moteur de recherche
Lors de la mise en ligne d'un site Web, celui-ci peut être analysé par les différents moteur de recherche, type Google, Bing ... Ces moteurs vont alors "lire" le site en suivant l'ensemble des liens. L'utilisation de Awstats, où la lecture des logs de Apache permet de constater tous ces accès.
Sommaire
Directive, fichier robots.txt
Sans aucune intervention, il est possible de constater des tentatives d'accès au fichier robots.txt
.
66.249.71.239 - - [11/Mar/2012:07:49:59 +0100] "GET /robots.txt HTTP/1.1" 404 501 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)" 123.125.71.27 - - [11/Mar/2012:08:26:29 +0100] "GET / HTTP/1.1" 200 618 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 220.181.108.78 - - [11/Mar/2012:08:26:48 +0100] "GET / HTTP/1.1" 200 618 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
Ce fichier permet de donner des directives aux moteurs de recherche, qui sont censés le lire et en tenir compte. La configuration de ce fichier permettra de:
- Exclure une(des) partie(s) du site.
- Exclure des parties en fonction du moteur.
Ce fichier est un simple contenu text, de type ".properties", avec deux arguments:
- User-agent
- Disallow
L'exclusion de pages pour un moteur particulier ne paraît pas forcément très utile, mais la fonctionnalité à le mérite d'exister.
Certains moteurs de recherche s'appuie sur la présence d'un fichier sitemap. Il est possible de l'indiquer à l'aide de la directive Sitemap
où il faut indiquer l'URL d'accès à ce fichier décrivant le site.
Examples
Autoriser un accès complet
Lors que l'on a rien à cacher, le contenu du fichier doit indiquer que tout le site est disponible. Les paramètres à mettre en place sont alors:
Paramètre | Valeur | Description |
---|---|---|
User-agent | * | L'étoile, comme dans beaucoup de produit, indique "tous". |
Disallow | La valeur vide permet de dire que rien n'est interdit, donc tout autorisé. |
Le fichier contient les lignes suivantes:
User-agent: *
Disallow:
Restriction d'accès
Tout le site pour tous les agents
Afin d'interdire l'indexation de tout le site, il faut indiquer la racine de celui ci dans le paramètre Disallow
.
Paramètre | Valeur | Description |
---|---|---|
User-agent | * | L'étoile, comme dans beaucoup de produit, indique "tous". |
Disallow | / | / représente la racine, comme pour les URLs. |
Le fichier contient les lignes suivantes:
User-agent: *
Disallow: /
Une partie du site pour tous les agents
Afin d'interdire l'indexation d'une partie identifié d'un site, par exemple /donotindex, il faut l'indiquer dans le paramètre Disallow
.
Paramètre | Valeur | Description |
---|---|---|
User-agent | * | L'étoile, comme dans beaucoup de produit, indique "tous". |
Disallow | /donotindex | Indique la partie à ne pas indexer. |
Le fichier contient les lignes suivantes:
User-agent: *
Disallow: /donotindex
Tout le site pour tous les agents, exception d'un agent
Le paramétrage de User-agent
permet de donner des directives différentes pour les différents moteurs de recherche.
Paramètre | Valeur | Description |
---|---|---|
Directive générale | ||
User-agent | * | L'étoile, comme dans beaucoup de produit, indique "tous". |
Disallow | / | / représente la racine, comme pour les URLs. |
Directive spécifique pour googlebot | ||
User-agent | googlebot | Le nom du moteur est explicitement nommé. |
Disallow | La valeur vide permet de dire que rien n'est interdit, donc tout autorisé. |
Le fichier contient les lignes suivantes:
User-agent: *
Disallow: /
User-agent: googlebot
Disallow:
Référencement sitemap
Dans cet exemple, les moteurs sont notifiés de la présence d'un sitemap à l'URL http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml
.
User-agent: *
Disallow: /
User-agent: googlebot
Disallow:
Sitemap: http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml