Référence site sur moteur de recherche

Lors de la mise en ligne d'un site Web, celui-ci peut être analysé par les différents moteur de recherche, type Google, Bing ... Ces moteurs vont alors "lire" le site en suivant l'ensemble des liens. L'utilisation de Awstats, où la lecture des logs de Apache permet de constater tous ces accès.

Directive, fichier robots.txt

Sans aucune intervention, il est possible de constater des tentatives d'accès au fichier robots.txt.

66.249.71.239 - - [11/Mar/2012:07:49:59 +0100] "GET /robots.txt HTTP/1.1" 404 501 "-" 
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
123.125.71.27 - - [11/Mar/2012:08:26:29 +0100] "GET / HTTP/1.1" 200 618 "-" 
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.78 - - [11/Mar/2012:08:26:48 +0100] "GET / HTTP/1.1" 200 618 "-" 
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Ce fichier permet de donner des directives aux moteurs de recherche, qui sont censés le lire et en tenir compte. La configuration de ce fichier permettra de:

Exclure une(des) partie(s) du site.
Exclure des parties en fonction du moteur.

Ce fichier est un simple contenu text, de type ".properties", avec deux arguments:

User-agent
Disallow

L'exclusion de pages pour un moteur particulier ne paraît pas forcément très utile, mais la fonctionnalité à le mérite d'exister.

Certains moteurs de recherche s'appuie sur la présence d'un fichier sitemap. Il est possible de l'indiquer à l'aide de la directive Sitemap où il faut indiquer l'URL d'accès à ce fichier décrivant le site.

Examples

Autoriser un accès complet

Lors que l'on a rien à cacher, le contenu du fichier doit indiquer que tout le site est disponible. Les paramètres à mettre en place sont alors:

Paramètre	Valeur	Description
User-agent	*	L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow		La valeur vide permet de dire que rien n'est interdit, donc tout autorisé.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow:

Restriction d'accès

Tout le site pour tous les agents

Afin d'interdire l'indexation de tout le site, il faut indiquer la racine de celui ci dans le paramètre Disallow.

Paramètre	Valeur	Description
User-agent	*	L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow	/	/ représente la racine, comme pour les URLs.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /

Une partie du site pour tous les agents

Afin d'interdire l'indexation d'une partie identifié d'un site, par exemple /donotindex, il faut l'indiquer dans le paramètre Disallow.

Paramètre	Valeur	Description
User-agent	*	L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow	/donotindex	Indique la partie à ne pas indexer.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /donotindex

Tout le site pour tous les agents, exception d'un agent

Le paramétrage de User-agent permet de donner des directives différentes pour les différents moteurs de recherche.

Paramètre	Valeur	Description
Directive générale
User-agent	*	L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow	/	/ représente la racine, comme pour les URLs.
Directive spécifique pour googlebot
User-agent	googlebot	Le nom du moteur est explicitement nommé.
Disallow		La valeur vide permet de dire que rien n'est interdit, donc tout autorisé.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

Référencement sitemap

Dans cet exemple, les moteurs sont notifiés de la présence d'un sitemap à l'URL http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml.

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

Sitemap: http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml

Référence site sur moteur de recherche

Sommaire

Directive, fichier robots.txt

Examples

Autoriser un accès complet

Restriction d'accès

Tout le site pour tous les agents

Une partie du site pour tous les agents

Tout le site pour tous les agents, exception d'un agent

Référencement sitemap

Menu de navigation

Affichages

Outils personnels

Liens utiles

Navigation

Rechercher

Outils

Accès rapide