Les moteurs de recherche sont des robots logiciels de type "agent intelligent" qui parcourent le web en suivant les liens, et indexent les sites Internet pour en proposer un classement qualitatif. Le "crawl" est la technique de collecte des données qui consiste à aspirer le contenu d'une page web pour ensuite en extraire les données utiles et les enregistrer. Le data-center est la partie serveur qui stockent les données (Google utilise près d' 1 million de serveurs répartis en 32 data-centers). Lorsqu'un utilisateur lance une requête, des algorithmes de classement et des filtres entrent en actions pour proposer dans la page de résultats appelée le SERP (search engine results page), une liste ordonnée d'adresses web qui répondent au mieux à la recherche effectuée.
Pour donner satisfaction aux plus grand nombre d'Internautes, les clés du succès d'un moteur de recherche reposent sur un équilibre de plusieurs critères : l'exhaustivité, la pertinence, la fraîcheur des résultats et la rapidité de la réponse.
En France comme dans le reste de l'Europe, Google s'est imposé depuis longtemps comme le leader de la recherche d'information sur Internet. Ses challengers, Bing de Microsoft, Yahoo, Ask et Voila (Orange Search) se partagent moins de 5% des recherches, et doivent depuis quelques temps faire de la place à des barres d'outils (Babylon, Conduit...) souvent imposées à l'utilisateur par des logiciels peu scrupuleux.
Aux Etats-Unis, Le portail Yahoo conserve une partie de son audience historique, et Microsoft a réussi à populariser l'usage de Bing, un outil de recherche presque aussi performant que son grand rival Google. A noté que depuis un accord, datant de 2010 entre Microsoft et Yahoo, ce dernier sous-traite à Bing la recherche.
Au niveau mondial, le trio de tête (Google Bing Yahoo) est rejoint et même rattrapé partiellement par le chinois Baidu (2eme place) et le russe Yandex (4eme place) selon les statistiques par nombre de requêtes publiées par ComScore en décembre2012.
Google
Une base de données de 30 000 milliards de pages est indexée par Google, selon les chiffres de 2015. Des mises à jour permanentes par une armée de robots, une multitude de filtres anti-spam et des algorithmes de classement performants pour des résultats inégalés.
Bing
Depuis Janvier 2005, Microsoft dispose avec Msn Search Live de sa propre technologie de recherche. Le moteur demande encore à s'améliorer pour espérer menacer la suprématie de Google. En juin 2009, le moteur est rebaptisé Bing et intègre de nouvelles fonctionnalités pour la recherche d'images et de vidéo.
Ask Jeeves
Le moteur de recherches qui grimpe. Annoncé pour 2005 dans sa version européenne, il est entré rapidement dans le peloton de tête des meilleurs outils de recherche mais son audience reste confidentielle, même aux Usa, avec 2,6% de part de marché en février 2013. Fonctionne avec la technologie Teoma.
Yahoo search
Début 2004, Yahoo met en place son propre moteur de recherche basé sur la technologie Inktomi. Bien que la pertinence et la rapidité soient au rendez-vous, le moteur ne rencontre pas le succès mérité en Europe. Depuis l'année 2010, suite à un accord en les deux génant d'Internet, Bing de Msn fournit sa base de données à Yahoo qui affiche donc des résultats assez similaires.
Duckduckgo
Créé en 2008 par Gabriel Weinberg, le moteur DuckDuckGo associe différentes sources d'informations telles que Wikipedia pour améliorer la pertinence de ces résultats. Asscoié à l'univers des projet libre, il fait campagne sur la fait qu'il ne collecte aucune donnée de surf sur ses utilisateurs.
Web archives
The Way Back Machine est la machine à remonter le temps d'Internet ! Cette base de données archive les sites Internet à intervalles réguliers. Il est ainsi possible de retrouver de vieilles versions de sites ayant changé d'aspect ou des pages disparues. Possibilité de rechercher par type de média.
Copy Scape
Copyscape est un moteur de recherche de plagiat sur Internet. Soumettez lui une page, il retrouvera rapidement si des extraits de celle-ci ont été copié sur un autre site.
Qwant
Lancer en début d'année 2013, ce moteur de recherche français fournit des résultats dans splusieurs volets : web, actualité, réseaux sociaux et shopping. A suivre ....
Voila
Le moteur de recherche web de France Télécom. Il possède sa propre base de données mise à jour par le robot Voilabot. En 2014, Voila se réoriente en portail de recherche de sorties et Lemoteur.orange devient l'adresse pour la recherche web.
Exalead
Un technologie française pour ce moteur de recherche associé au robot Exabot. On le retrouve depuis 2004 sur plusieurs portails comme Scoot et Aol. Les résultats sont générés avec une capture d'écran et des associations thématiques.
Gigablast
Avec plus d'1 milliard de page indéxes, ce moteur fondé en 2000 marche sur les pas des plus grands outils de recherche. Nombreux opérateurs et suggestions thématiques.
Hotbot
Un moteur de recherches travaillant notamment avec la technologie Inktomi développée par l’Université de Berkeley. Né en 1996, le robot a ensuite été racheté par le portail Lycos en 1998, et comme ce dernier à perdu progressivement toute sa notoriété.
Scrubtheweb
Moteur de recherche et robot international. Pas le plus populaire mais un bon outil de recherche qui mériterait d'être plus connu.
All The Web
Racheté par Yahoo, le robot spécifique disparait en Mars 2004. Le moteur de recherche propose un choix parmi 70 langues et divers formats de fichiers. En Juin 2002 Fast Technologie indexait plus 2,1 milliards de documents et représentait le plus sérieux challenger de Google.
Altavista
Altavista a été développé par la société Compaq et fut un pionnier parmi les robots du web et aussi un des plus performants. Victime du spam des référenceurs de sites X et du succès de Google, il revenait en 2003 avec une nouvelle interface et un nouvel algorithme. Racheté par Yahoo, le robot disparaît définitivement début 2004. La base de données est dorénavant fournie par le robot Yahoo search.