Analyse des requêtes par les moteurs de recherche

Transformation et expansion de la requête

Lorsqu’un internaute saisit une requête, le moteur de recherche ne se contente pas de reprendre textuellement les mots tapés. Il commence par analyser la requête, en corriger d’éventuelles fautes, en repérer la langue, en détecter les entités nommées et en identifier l’intention dominante. À partir de là, il applique un ensemble de transformations que l’on regroupe sous le terme d’expansion de requête. Cette expansion peut inclure des synonymes, des variantes morphologiques, des termes proches ou des reformulations partielles. L’objectif est de mieux couvrir le champ sémantique de la demande et de ne pas se limiter à une correspondance brute sur les mots exacts.

Cette phase de prétraitement permet au moteur de relier des requêtes différentes mais proches, de mieux gérer les expressions ambiguës et d’améliorer la pertinence des résultats dans des contextes où le vocabulaire réel des documents diverge légèrement de celui utilisé par l’internaute. La requête ainsi transformée devient la base de travail pour l’appariement avec les documents présents dans l’index.

Signaux associés aux documents, aux requêtes et au comportement

Pour évaluer la pertinence d’un document face à une requête donnée, le moteur s’appuie sur de nombreux signaux. Certains sont propres aux documents eux mêmes, comme le PageRank, le nombre et la qualité des liens entrants, la structure interne des liens, la fraîcheur du contenu ou la qualité technique de la page. D’autres signaux sont spécifiques au couple formé par la requête et le texte analysé. Le texte peut être le contenu principal du document, mais aussi des éléments ciblés comme la balise Title, certains intertitres ou des zones jugées représentatives.

Le moteur observe aussi les signaux issus du comportement des internautes. Les modèles de clics, les retours rapides vers la page de résultats, le temps passé sur une page ou la préférence constante pour certains types de documents donnent des indications sur ce que les utilisateurs jugent plus ou moins satisfaisant. Ces informations ne suffisent pas à elles seules pour désigner les « bons » résultats, car elles sont bruitées, incomplètes et sujettes à manipulation. Elles permettent en revanche de repérer des résultats clairement inadaptés, que les internautes ignorent systématiquement, ou des formats de page qui déçoivent régulièrement pour une requête donnée.

Sur la base de ces données, le moteur peut affiner les pondérations qu’il accorde à certains signaux. Il peut par exemple renforcer l’importance de la présence exacte de la requête dans certains endroits du document, tenir compte de la distance entre les mots lorsque la requête comporte plusieurs termes, ou valoriser des modèles de contenu qui ont démontré une meilleure capacité à satisfaire l’intention de recherche.

La balise description est elle prise en compte par le moteur

La balise meta description joue un rôle particulier. Elle ne sert pas directement de facteur de classement au sens strict, mais elle est bien prise en compte par le moteur. Elle fournit un résumé potentiel du contenu que le moteur peut utiliser ou adapter pour composer l’extrait visible dans la page de résultats. Ce texte influe sur le taux de clic, c’est à dire sur la probabilité qu’un internaute choisisse un résultat plutôt qu’un autre. Indirectement, une description claire, cohérente et en lien avec la requête peut donc améliorer la performance d’un résultat, même si la balise, en tant que telle, n’augmente pas la popularité ou l’autorité intrinsèque de la page.

Dans certains cas, lorsque la description ne correspond pas bien à la requête ou qu’elle est absente, le moteur préfère extraire lui même un extrait du contenu qui lui semble plus pertinent. La meta description reste néanmoins un signal de contexte qui aide le moteur à comprendre le positionnement éditorial de la page et à construire une réponse plus attractive pour l’utilisateur.

Rétropropagation de la pertinence et ajustement des paramètres

Les paramètres qui gouvernent la pondération des signaux ne restent pas figés. Ils sont ajustés en permanence par des processus automatiques d’apprentissage qui comparent les performances de différentes configurations. On peut rapprocher ces mécanismes de la rétropropagation de la pertinence décrite en recherche d’information, où les retours des utilisateurs permettent de corriger progressivement les modèles. Les algorithmes hérités de travaux comme celui de Rocchio illustrent cette logique, même si les moteurs modernes utilisent aujourd’hui des variantes beaucoup plus sophistiquées.

Il est difficile de déduire à partir du seul comportement des internautes quels sont les documents parfaits pour une requête, mais il est plus facile de repérer ceux qui échouent systématiquement à susciter l’intérêt. Ces exemples négatifs servent à éliminer ou à dévaluer certains résultats. Inversement, la récurrence de certains signaux dans les documents souvent choisis renforce la probabilité qu’ils soient pris en compte dans les modèles de classement. Ces ajustements se font à grande échelle, sur des volumes massifs de données, et aboutissent à des pondérations qui évoluent au fil du temps.

Vecteurs de signaux et pondération par le machine learning

Pour chaque couple formé par une requête et un document, le moteur construit un vecteur de signaux. Ce vecteur regroupe sous forme numérique un grand nombre de caractéristiques, qu’elles soient liées au contenu, aux liens, au comportement des utilisateurs ou à des aspects techniques et contextuels. Lorsque l’internaute lance une requête, le moteur récupère les vecteurs associés aux documents jugés candidats et applique une formule de pondération qui combine ces signaux afin de produire un score global de pertinence.

La difficulté réside dans le choix des signaux à utiliser et dans la manière de les pondérer. Les moteurs s’appuient pour cela sur des modèles de machine learning, qui apprennent à partir de données d’entraînement, de jugements de qualité et de retours utilisateurs. Les paramètres exacts des modèles ne sont pas publiés et varient selon les langues, les marchés, les types de requêtes et les évolutions de l’algorithme. Ce que l’on sait, en revanche, est que la combinaison de signaux domine largement l’utilisation d’un critère unique.

Dans ce cadre, documents et requêtes peuvent être représentés par des vecteurs dans un espace de très grande dimension. Chaque dimension correspond à un terme, à un groupe de mots ou à des unités plus complexes construites par le moteur. On parle souvent de n grams lorsque l’on considère des suites de plusieurs mots. Selon la sophistication du modèle, ces représentations vectorielles peuvent être enrichies par des embeddings sémantiques, des informations de contexte ou des signaux d’intention. L’appariement entre la requête et les documents ne se limite alors plus à une simple comparaison de mots, mais s’étend à des notions de proximité sémantique et de similarité dans l’espace vectoriel.