Référence site sur moteur de recherche

De EjnTricks
Révision de 28 août 2014 à 11:48 par Etienne (discussion | contributions)

(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)

Lors de la mise en ligne d'un site Web, celui-ci peut être analysé par les différents moteur de recherche, type Google, Bing ... Ces moteurs vont alors "lire" le site en suivant l'ensemble des liens. L'utilisation de Awstats, où la lecture des logs de Apache permet de constater tous ces accès.

Books-icon.png Directive, fichier robots.txt

Sans aucune intervention, il est possible de constater des tentatives d'accès au fichier robots.txt.

66.249.71.239 - - [11/Mar/2012:07:49:59 +0100] "GET /robots.txt HTTP/1.1" 404 501 "-" 
"Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
123.125.71.27 - - [11/Mar/2012:08:26:29 +0100] "GET / HTTP/1.1" 200 618 "-" 
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
220.181.108.78 - - [11/Mar/2012:08:26:48 +0100] "GET / HTTP/1.1" 200 618 "-" 
"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"

Ce fichier permet de donner des directives aux moteurs de recherche, qui sont censés le lire et en tenir compte. La configuration de ce fichier permettra de:

  • Exclure une(des) partie(s) du site.
  • Exclure des parties en fonction du moteur.


Ce fichier est un simple contenu text, de type ".properties", avec deux arguments:

  • User-agent
  • Disallow

L'exclusion de pages pour un moteur particulier ne paraît pas forcément très utile, mais la fonctionnalité à le mérite d'exister.


Certains moteurs de recherche s'appuie sur la présence d'un fichier sitemap. Il est possible de l'indiquer à l'aide de la directive Sitemap où il faut indiquer l'URL d'accès à ce fichier décrivant le site.

Examples-icon.png Examples

Lock-off-icon.png Autoriser un accès complet

Lors que l'on a rien à cacher, le contenu du fichier doit indiquer que tout le site est disponible. Les paramètres à mettre en place sont alors:

Paramètre Valeur Description
User-agent * L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow La valeur vide permet de dire que rien n'est interdit, donc tout autorisé.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow:


Lock-icon.png Restriction d'accès

Tout le site pour tous les agents

Afin d'interdire l'indexation de tout le site, il faut indiquer la racine de celui ci dans le paramètre Disallow.

Paramètre Valeur Description
User-agent * L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow / / représente la racine, comme pour les URLs.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /
Une partie du site pour tous les agents

Afin d'interdire l'indexation d'une partie identifié d'un site, par exemple /donotindex, il faut l'indiquer dans le paramètre Disallow.

Paramètre Valeur Description
User-agent * L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow /donotindex Indique la partie à ne pas indexer.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /donotindex
Tout le site pour tous les agents, exception d'un agent

Le paramétrage de User-agent permet de donner des directives différentes pour les différents moteurs de recherche.

Paramètre Valeur Description
Directive générale
User-agent * L'étoile, comme dans beaucoup de produit, indique "tous".
Disallow / / représente la racine, comme pour les URLs.
Directive spécifique pour googlebot
User-agent googlebot Le nom du moteur est explicitement nommé.
Disallow La valeur vide permet de dire que rien n'est interdit, donc tout autorisé.

Le fichier contient les lignes suivantes:

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:


System-Internet-Search-icon.png Référencement sitemap

Dans cet exemple, les moteurs sont notifiés de la présence d'un sitemap à l'URL http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml.

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

Sitemap: http://www.jouvinio.net/wiki/sitemap/sitemap-index-wikidb-ejnwiki_.xml