<<

Thème : Le Web Les moteurs de recherche

Capacités attendues : - Comprendre le fonctionnement des moteurs de recherche - Mener une analyse critique des résultats d’un moteur de recherche - Comprendre les enjeux de la publication d’informations

Moteur de recherche : application informatique permettant de rechercher une ressource (page Web, image, vidéo, fichier…) à partir d’une requête sous forme de mots-clés.

1. Le fonctionnement des moteurs de recherche

* Au brouillon, essayez de schématiser le fonctionnement d’un moteur de recherche.

Vocabulaire à retenir : - crawlers : robot d’indexation qui explore automatiquement le Web en suivant les liens entre les différentes pages pour collecter les ressources. - indexation : les mots-clés sont listés, classés et enregistrés sur des serveurs qui stockent les données. - pertinence : répond au besoin au moment où il est exprimé.

Le Web est un immense graphe : chaque page est un noeud relié à d’autres nœuds par des liens hypertextes.

On pourrait le schématiser de façon très simplifiée, comme ci-contre.

Mme Suaudeau SNT 2019-2020 * A partir du nœud E, parcourez le graphe précédant en listant les pages consultées et les pages à visiter à chaque étape :

Action Pages visitées Pages à visiter On visite E, lié à A et H E A H On visite A , lié à B E A H B On visite H , lié à J E A H B J On visite B , lié à A et C E A H B J C (A déjà visité) On visite J , lié à F E A H B J C F On visite C , lié à A E A H B J C C F (A déjà visité) On visite F , lié à C D G H E A H B J C F D G (C et H déjà visités) On visite D , lié à / E A H B J C F D G On visite G , lié à / E A H B J C F D G

* Que se passe-t-il si l’on commence l’exploration par le nœud A ? La visite est terminée en 3 étapes mais on a « raté » une grande partie du graphe.

2. Les différents moteurs de recherche

* Quels moteurs de recherche connaissez-vous ?

* Le tableau ci-dessous compare l’utilisation des moteurs de recherche selon différentes zones géographiques pour le mois d’août 2019. Bing Yahoo ! DuckDuckGo Yandex MSN Afrique 96,89 % 1,70 % 1,11 % 0,12 % 0,05 % 0,04 % Amérique du Nord 89,29 % 5,84 % 3,43 % 1,10 % 0,11 % 0,07 % Amérique du Sud 97,64 % 1,14 % 0,93 % 0,10 % 0,12 % 0,03 % Asie 92,27 % 1,04 % 1,72 % 2,58 % 0,82 % 0,36 % Europe 93,03 % 3,02 % 0,89 % 0,47 % 1,72 % 0,27 % France 84,74 % 11,80 % 1,06 % 0,71 % 0,73 % 0,66 % USA 88,01 % 6,40 % 3,94 % 1,30 % 0,10 % 0,07 % Chine 3,18 % 2,23 % 76,69 % 10,67 % Russie 51,65 % 3,23 % 0,29 % 0,25 % 45,16 % Monde entier 92,37 % 4,23 % 1,80 % 0,55 % 1,10 % 0,51 % https://gs.statcounter.com/search-engine-market-share/

* Entourez en rouge le chiffre le plus élevé de chaque colonne, en bleu le moins élevé. → Dans quelle région Google est-il le plus utilisé ? Amérique du Sud Et le moins ? Chine et Russie → Quelle est à votre avis la nationalité des moteurs de recherche Baidu (Chinois), Yandex (Russe) et Sogou (Chinois) ?

Mme Suaudeau SNT 2019-2020 * Google

1995 : rencontre de Larry Page et Sergey Brin à l’Université de Stanford, Californie. Ils travaillent à la mise au point d'un moteur de recherche qui utilise des liens pour déterminer l'importance de pages individuelles sur le Web. Ils l'appellent « BackRub » avant de le renommer « Google » en référence au terme mathématique « gogol » qui désigne le nombre 1 suivi de 100 zéros. 1998 : Naissance de Google Inc. Après l’investissement du cofondateur de Sun Microsystems. 2010 : Google traite plus d’un milliard de requêtes par jour

Aujourd’hui : Google emploie plus de 60 000 personnes dans 50 pays différents et conçoit des centaines de produits à travers différentes applications comme Youtube, Android, Smartbox…

Les informations susceptibles d’être collectées par Google : - langue - les annonces - vidéos Youtube - services utilisés - données sur l’appareil (modèle, système d’exploitation…) - position - nom profil Google - photo compte Google

* Qwant

Conçu et basé en France, Qwant est un moteur de recherche qui repose sur deux piliers : - respect de la vie privée : vise à offrir les meilleurs résultats possibles sans chercher à savoir qui est l’internaute ou ce qu’il a cherché précédemment. Les requêtes sont chiffrées pour qu’un tiers ne puisse y avoir accès, l’historique des requêtes n’est pas enregistré et aucun cookie ou traceur sont installé sur le navigateur. - neutralité et impartialité garanties : indexe l’ensemble du Web sans discrimination, et applique partout ses algorithmes de classement sans chercher à mettre certains sites en avant résultats parce qu’ils répondraient à des préoccupations commerciales, politiques ou morales.

Fonctionne en partenariat avec Bing pour compléter ses résultats en attendant que leurs crawlers indexent une plus grande partie du Web.

* Ecosia

2009 : naissance d’Ecosia suite à un voyage permettant à son fondateur de prendre conscience des problèmes liés à la déforestation. 2019 : 60 millions d’arbres plantés et construction de sa propre centrale solaire pour alimenter les serveurs.

Les principes : - Les données de recherche sont anonymisées au bout d’une semaine. - Les données des internautes ne sont pas vendues aux annonceurs publicitaires. - Les recherches sont chiffrées pour qu’un tiers n’y ait pas accès.

Fonctionne lui aussi en partenariat avec Bing.

Mme Suaudeau SNT 2019-2020 Test avec Turing Enigma Google Qwant Ecosia 1 360 000 résultats 310 000 résultats Vidéos Wikipédia Wikipédia Wikipédia France culture Vidéos Le journal CNRS Youtube France culture Interstices Imperial War Museums Imperial War Museums Hgerodote.net Le journal CNRS Le journal CNRS

3. Fiabilité des résultats et référencement

La popularité d’une page dépend de plusieurs facteurs : - le nombre de pages qui ont des liens vers cette page - le nombre de fois que les utilisateurs choisissent cette page en réponse à une requêtes - l’achat de mots-clés au moteur de recherche par un site afin que ses pages soient mieux classées

Les moteurs de recherche combinent ces facteurs selon des algorithmes gardés secrets et qui évoluent régulièrement. C’est pourquoi les réponses varient d’un moteur à l’autre.

Certains sites tentent de tromper les moteurs de recherche en utilisant des textes cachés ou en plaçant exprès certains mots-clés dans les zones de titres afin d’améliorer le référencement.

L’algorithme le plus connu est le PageRank de Google qui attribue à chaque page un nombre entre 0 et 1 à partir de deux règles : - score élevé si la page est référencée dans une autre page bien notée - score baissé si la page est référencée dans une page parmi plein d’autres références

4. Bonus : comparaison entre les moteurs de recherche et e-Sidoc e-Sidoc est le portail documentaire du CDI. Il fonctionne un peu comme un moteur de recherche mais en cherchant dans une base limitée (celle du CDI) ≠ à l’univers infini du Web. Les réponses qu’il fournit à une recherche ont été validées en amont par le professeur-documentaliste ≠ aux résultats des moteurs de recherche qu’il faut valider soi-même.

Fonctionnement des deux avec des mots-clés que l’on peut combiner entre eux : ET / OU = opérateurs booléens. Faire se lever les élèves en fonction de consignes différentes pour déterminer lequel donne le plus de résultats.

Mme Suaudeau SNT 2019-2020