10 Février 2012    

Gouvernance

Solutions

Technologies

Marchés

Moteurs de recherche sur Internet, référencement, PageRank de Google

Site Internet

 
 
 
 
 

Lorsque l'on crée un site Web, c'est évidemment pour qu'il soit visité.
Même si quantité n'est pas synonyme de qualité, il y a forcément un lien entre audience et intérêt. Dès lors, il faut se pencher sur la visibilité du site dans les différents moteurs de recherche et le poids que chaque moteur peut représenter.

Principes d'indexation

Il y a deux façons d'être indexé dans un moteur de recherche :

  • par une déclaration volontaire,
  • en étant découvert par l'agent automatique du moteur de recherche : l'araignée. C'est, de loin, la façon la plus courante.

Pour indexer une page web, l'araignée devra repérer les notions importantes traitées dans le document et leur accorder une certaine hiérarchie. Suivant les moteurs de recherche, l'araignée ira chercher les mots importants en priorité dans la zone "mots clés" de la page (Keywords) ou bien fera à son idée, en privilégiant le texte : c'est le cas de Google, notamment.

Le crawl de l'araignée

Pour indexer les sites, l'araignée (appelée aussi crawler, ou spider, ou Googlebot pour Google) doit savoir non seulement indexer les pages, mais aussi visiter toutes les pages du site. Pour cela, elle doit suivre les liens depuis la première page du site, jusqu'à la plus lointaine.
Comme le lecteur, l'araignée n'est pas patiente. Elle ne consacre à un site qu'un temps très court. D'où l'intérêt de lui faciliter le travail en respectant autant que possible des règles d'hygiène simples :

  • garder aux mêmes documents les mêmes adresses de pages,
  • éviter les requêtes complexes,
  • avoir des bons temps d'accès,
  • éviter les tricheries (spamdexing) qui, lorsqu'elles sont découvertes, sont éliminatoires,
  • utiliser des terminologies claires et parlantes, semblables à celles qu'utiliserait le visiteur.

Audience des moteurs de recherche

Le tableau ci-dessous indique la proportion de visites générées par chaque moteur de recherche pour les sites audités par XiTI.
 

En voyant le tableau et en remarquant l'écrasante domination de Google, difficile de ne pas décider de commencer par lui. Ensuite, c'est une affaire de choix, reste, comme au Bac, à éviter les impasses.

Pertinence de la recherche : stupide ou génial ?

Ni l'un, ni l'autre. Nous ne saurions trop recommander de lire également les fiches Dossiers sur la recherche documentaire.
Il est certain qu'un moteur de recherche est incapable de comprendre le sens d'un texte, aussi bien que le sens de la requête de l'utilisateur. Dès lors, il lui faut déterminer quels sont les documents qui sont susceptibles de correspondre le mieux à la recherche à partir de signes extérieurs et de probabilités.
Si l'on prend l'exemple de Google, il tient compte des mots présents dans le texte, accorde une importance supplémentaire à ceux qui sont affichés dans les titres ou en gras, et enfin, favorisent ceux qui sont présents plusieurs fois. Enfin, chaque moteur à son mécanisme de probabilité supplémentaire, pour Google c'est le désormais célèbre PageRank.
Donc, comme tout système de recherche documentaire, un moteur de recherche sélectionne le document qui contient les mots clés demandés par le visiteur, puis ordonne la liste des résultats suivant ce qu'il suppose être l'ordre de pertinence le plus probable. Cet ordre le plus probable est d'abord basé sur des critères objectifs (présence des mots dans un ordre le plus approchant possible de la requête), puis suivant des spéculations mathématiques (indice de popularité, ancienneté du document...).

PageRank de Google

PageRank, cauchemar des webmasters, est le résultat d'un algorithme chargé de calculer non pas la pertinence, mais la popularité d'une page web. C'est lui qui donnera l'ordre d'affichage des résultats de même intérêt supposé.
Quand on regarde le tableau ci-dessous, on constate qu'on a intérêt à être en tête de cette fameuse liste, au pire dans les 3 premières pages.
 


Google garde secrètes ses recettes de cuisine, à la fois parce qu'il les améliore sans cesse et aussi pour éviter que des petits bricoleurs ne faussent les résultats. Une bonne excuse pour rester vague dans la définition du PageRank !
Le PageRank d'une page est obtenu en additionnant le nombre de liens (internes ou externes au site) qui pointent vers elle et en divisant par le nombre de liens qui en sortent. Il y a bien sûr d'autres paramètres, mais le plus important est de se rappeler que plus une page est populaire et souvent citée ailleurs, plus elle a de chance d'avoir un PageRank élevé.
De fait, malgré toute l'estime que l'on peut avoir pour la formidable puissance de collecte de Google ainsi que pour la sophistication des algorithmes utilisés, on mesure bien combien l'apparition d'une page en tête de Google est un événement aléatoire.
Enfin, la mise à jour, autrefois mensuelle, des bases de données de Google demandait plusieurs jours. Pendant cette période, une interrogation de chaque base suivant les mêmes critères pouvait fournir des résultat différents : la Google dance.
La mise à jour s'effectue maintenant en continu, mais la complexité et l'appellation restent.

SEO (Search Engines Optimisation), obtenir un bon référencement

Tous les experts sont d'accord pour retenir 2 principes essentiels lors de la création d"un site web :

  • proposer un site intéressant pour le visiteur,
  • éviter les astuces alambiquées supposées doper la visibilité.

Les inconvénients de ces astuces douteuses sont :

  • le dévoiement du site : vouloir optimiser le référencement d'un site ne doit pas conduire à le transformer pour le rendre inutilisable par le lecteur,
  • une bonne chance de rester sur le bord de la route : chaque moteur à pour vocation d'améliorer en permanence la pertinence des résultats. Une astuce qui tire partie d'une caractéristique non officielle du moteur peut devenir brutalement un vrai handicap si la méthode d'indexation est modifiée,
  • le risque d'être carrément blacklisté (viré), en cas de tricherie honteuse détectée par le moteur.

sur tous ces sujets, il existe une littérature abondante sur le net.
A contrario, dès lors que l'on a durement travaillé à l'édification d'un site, il est légitime de se préoccuper de son meilleur référencement possible : c'est le SEO (Search Engines Optimisation). Avec 3 voies de recherche :

  • la mise en oeuvre de règles simples qui sont généralement fournies par les moteurs eux-mêmes (voir les Autres liens).
  • faire appel à un professionnel du référencement, qui pourra, soit intervenir au départ pour une meilleure efficacité du site, soit chercher à positionner le site en tête des listes de résultats en utilisant des mots clés pertinents. Attention toutefois, ce traitement est généralement à vie,
  • mais aussi, à défaut, payer directement le moteur pour obtenir un référencement privilégié (généralement en marge de la liste).

Pour aller plus loin


Google à 200%, O'Reilly

Ce livre de 350 pages fournira au programmeur beaucoup de moyens surprenants d'utiliser Google comme moteur de recherche.
Le Webmaster trouvera à la fin des explications assez détaillées sur les méthodes d'indexation dans Google et, notamment, le fameux PageRank.
L'ensemble reprend la présentation très pratique par "Hacks" de la série 200%.
O'Reilly, octobre 2003.
 
 

Pour aller plus loin

Recherche         
fermer