Compte rendu de la soirée sur les limites de google

C’est une bonne vingtaine de personnes qui ont bravé le froid et se dont réunies à la Galerie des Saveurs pour écouter Laurent Vuillon nous parler des limites de google et proposer une alternative innovante pour la recherche d’information : alhena.

La recherche par google

Lorsque l’on effectue une recherche sur un mot clé, google nous retourne une liste de résultat comprenant des sites ainsi que des images.

Google trends est un outil qui permet d’observer ce que les internautes ont cherchés, quelles requêtes, leur nombre ainsi que leur géolocalisation.

Google, à travers cet outil nous permet notamment de :

voir les psychoses de la société (grippe aviaire / H1N1) : le nombre de recherche sur la grippe est connecté a l’étendu de l’épidémie
prédire un chiffre d’affaire : le nombre de requêtes sur un film permet de connaitre son futur succès au box office

On note également plusieurs problèmes :

les homonymies : plusieurs choses qui ont le même nom (Molière, la Molière)
les mots polysémiques : mots qui ont plusieurs sens comme blanc, tuile, …
les noms et surnoms : certains clubs de foot ont plusieurs noms différents
le vocabulaire : il change en fonction des gens, de leur profession, de leur age, de leur région ou communauté – on trouve donc des documents de personne qui ont le même vocabulaire

Pour aider l’internaute dans sa recherche Google propose l’auto-complétion. Cette technique donne parfois des résultats douteux mais elle permet de mieux cibler le domaine sémantique de la recherche.

Reconstruire les domaines sémantique complet n’est pas envisageable, ce serait beaucoup trop long et trop coûteux.

La mesure de voisinage

Une solution serait de rapprocher les documents selon leur contenu pour créer des « constellations » de documents. Cette méthode permettrai de suivre l’évolution d’une information sur le net.

Pour créer des mesure de voisinage entre les textes, la technique est la suivante :

on transforme chaque texte en « sacs de mots » en supprimant les « inutiles » du type la, le, du
on passe tous les verbes à l’infinitif, tout les mots au singulier, c’est la lemmatisation
pour chaque mot du texte 1 on regarde dans le texte 2 si le mot existe, s’il à des synonymes et s’il a des mots occurrents (mots très souvent employés ensemble comme pomme de terre)

On obtient ensuite différentes « constellations », regroupement de ces textes. A l’intérieur de ces constellations on trouve également des nucléus, ce sont les deux (ou plus) texte au centre de la constellation. En lisant ces textes, souvent les plus courts, on obtient une idées global du sujet de la constellation.

Il existe 5 principales applications à cette technique :

la veille stratégique
la recherche d’information
la littérature
la psychologie
l’informatique

On note également des limites :

c’est assez long et il n’y a pas encore d’optimisation, on ne peut pas l’utiliser sur le web
il y a des problèmes d’encodage
ce n’est pas un outil clé en main
les résultats sont différents de la classification humaine
il n’y a pas de recherche sémantique
une seule langue est géré à la fois

Autour de l'événement

Les limites de Google : proposition d’une alternative innovante pour la recherche d’information.

Venez découvrir les limites de Google et sur une nouvelle façon de naviguer dans l’information. Laurent Vuillon vous présentera le travail est mené dans le cadre de la thèse d’Annette Casagrande au laboratoire LAMA de l’Université de Savoie et au Cerag de l’Université de Grenoble.

Présentation de Laurent Vuillon

La prochaine soirée « :focus » sera animé par Laurent Vuillon, spécialiste de mathématiques pour l’informatique et d’analyse de données textuelles.

Les participants à la soirée sur les limites de google

Découvrez les 30 participants à la soirée :Focus du jeudi 29 novembre animé par Laurent Vuillon.

Les slides de la présentation sur les limites de google

Voici les slides utilisés par Laurent Vuillon lors de sa présentation « les limites de google : proposition d’une alternative innovante pour la recherche d’information ».

Cookie	Durée	Description
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durée	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat	1 minute	This cookie is installed by Google Universal Analytics to restrain request rate and thus limit the collection of data on high traffic sites.
_gat_gtag_UA_3340785_2	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.

Cookie	Durée	Description
_gat_wzWeez	1 minute	No description
weezevent	session	No description

La recherche par google

La mesure de voisinage

Laisser un commentaire