Un moteur de recherche Web est un logiciel conçu pour rechercher des informations sur le World Wide Web. Les résultats de la recherche sont généralement présentés dans des pages de résultats du moteur de recherche (SERPs). Les informations peuvent être un mélange de pages Web, d’images et d’autres types de fichiers. Certains moteurs de recherche extraient également des données disponibles dans des bases de données ou des répertoires ouverts.
Principe de fonctionnement
Presque tous les moteurs de recherche web fonctionnent en se basant sur les trois processus suivants en temps réel :
- Web Crawling
- Indexation
- Recherche
Web Crawling
Les moteurs de recherche Web obtiennent des informations sur les liens en explorant le Web d’un site à l’autre. Le « spider » ou « Crawler » vérifie le nom de fichier standard robots.txt, qui lui est adressé, avant de renvoyer certaines informations à indexer en fonction de nombreux facteurs, tels que les titres, le contenu de la page, JavaScript, CSS, titres, mis en évidence par le balisage HTML standard du contenu informatif, ou ses métadonnées dans les balises META HTML. En raison du nombre très important de sites web qui existent actuellement, des pièges aux Spiders, du spam et d’autres contraintes du Web réel, les robots d’exploration intègrent à la place une règle d’analyse restrictive pour déterminer quand l’exploration d’un site doit être considérée, par conséquent, certains sites sont explorés de manière exhaustive, tandis que d’autres ne sont explorés que partiellement.
L’indexation
L’indexation consiste à associer des mots et d’autres facteurs définissables trouvés sur des pages Web à leurs noms de domaine et à des champs HTML. Les associations sont faites dans une base de données publique, mise à disposition pour les requêtes de recherche web. Une requête d’un utilisateur peut être composée d’un seul de plusieurs mots. L’index aide à trouver les informations relatives à la requête aussi rapidement que possible. Certaines des techniques d’indexation et de mise en cache sont des secrets commerciaux, tandis que l’exploration Web est un processus simple de visite systématique de tous les sites.
La recherche proprement dite
Généralement, lorsqu’un utilisateur saisit une requête dans un moteur de recherche, il s’agit d’un ou de quelques mots clés. L’index contient déjà les noms des sites contenant ces mots-clés, et ceux-ci sont obtenus instantanément à partir de l’index. La charge de traitement réelle consiste à générer les pages Web qui constituent la liste des résultats de recherche : Chaque page de la liste doit être pondérée en fonction des informations contenues dans les index. Ensuite, l’élément de résultat de recherche supérieur requiert la recherche, la reconstruction et le balisage des extraits présentant le contexte des mots clés correspondants. Ce ne sont qu’une partie du traitement requis par chaque page de résultats de recherche, et d’autres pages (en haut à gauche) nécessitent davantage de ce post-traitement.