Google comment ça marche ?
À la différence des annuaires qui référencent uniquement des sites, les moteurs de recherche référencent des pages. Cette différence capitale met en lumière le premier aspect technique d’un moteur de recherche : son système de collecte et d’indexation. Ensuite, la phase de recherche est sensiblement la même : l’internaute tape un ou plusieurs mots dans un formulaire, et l’outil de recherche affiche les résultats.
Revenons sur ces trois étapes :
- La collecte
- L’indexation
- La recherche
La collecte est effectuée par un programme informatique qui parcourt le web de page en page en suivant les liens trouvés sur chaque page, qu’il récupère et enregistre sur des disques durs. On appelle ce type de programmes un « robot » ; Google a baptisé le sien Googlebot.
Une fois qu’une page a été visitée par le robot, elle est analysée selon différents critères, puis indexée dans une gigantesque base de données. Cette étape prend du temps et n’est donc pas faite à chaque requête, mais seulement de temps en temps.
Enfin, quand l’internaute effectue une recherche sur Google, le moteur va trouver dans sa base de données les pages qui correspondent le mieux à la requête afin de renvoyer les résultats classés par pertinence décroissante.
La phase de collecte
Fonction du robot Googlebot
Connaître l’adresse de chaque page Web (leur URL) ne suffit pas à Google pour les indexer, il a besoin également de lire leur contenu. On peut comparer l’indexation des pages Web par Google au travail d’un bibliothécaire. Une bibliothèque reçoit ou achète régulièrement de nouveaux livres ; avant de les ranger dans les bonnes étagères, le documentaliste doit les référencer dans la base de données des livres de la bibliothèque. Il ne suffit pas de connaître le titre du livre, il faut aussi prendre en compte l’auteur, la collection, le numéro d’identification ISBN, d’autres éléments plus complexes comme la thématique, le résumé et d’autres critères de classement.
De la même manière, Google consulte la page Web dans son ensemble et analyse les mots qui la composent pour la classer sur la bonne « étagère ».
Le robot Googlebot est un programme informatique similaire à un navigateur. Googlebot parcourt le Web exactement comme un internaute : il va de page en page en suivant les liens, passe parfois d’un site à un autre en suivant un lien externe et, enfin, va de temps en temps découvrir de nouveaux sites dont l’adresse lui à été envoyée.
Ces trois types d’accès aux pages indiquent les différents moyens dont dispose Googlebot pour aller lire des pages web et les indexer :
- Sur un site déjà connu, dès qu’une nouvelle page est ajoutée par le webmaster et est accessible par un lien placé sur une page déjà indexée par Google, Googlebot note cette nouvelle adresse sur sa liste de pages à explorer.
- Toujours sur un site déjà connu de Google, si Google trouve un lien externe vers un nouveau site, il le place également sur sa liste de pages à explorer.
- Enfin, les pages mentionnées via le formulaire d’inscription (www.google.fr/intl/fr/addurl.html) sont aussi ajoutées sur la liste des pages à explorer.
Cette liste de pages est énorme : elle contient des milliards d’éléments. Difficile à gérer dans un temps raisonnable ! Google a donc mis au point un système « distribué » : il n’existe pas un seul robot Googlebot, mais des centaines, qui parcourent le Web en permanence, en se partageant le travail.
La deuxième étape peut être effectuée de manière asynchrone et constitue la partie la plus complexe de l’indexation. Elle consiste à analyser en détail chaque page rapatriée par Googlebot afin de l’indexer dans la base de données. L’index de Google lui permet de classer tous les documents afin de la retrouver très rapidement lorsqu’un internaute effectue une recherche.
Pour simplifier, imaginez que Google dresse une liste de toutes les expressions qui peuvent être recherchées par les internautes (par « expression », nous entendons « suite de mots-clés »). À chaque expression correspond une liste de pages Web qui les contiennent. Ainsi quand l’internaute fait une recherche, Google affiche les pages rattachées à l’expression demandée, en allant consulter cet index.
Demande de contact
N'hésitez pas à nous laisser une demande,
|
![]() |






