SEO Camp’us 2010 : J-3

Faire découvrir les techniques avancées utilisées dans les moteurs de recherche est l’une des raisons d’être des séminaires SEO Camp’us. Après les mathématiques du calcul du pagerank et la linguistique statistique l’an passé, cette année, un cycle de trois conférences permettra de découvrir la reconnaissance des entités nommées et l’extraction de données (conférence de Jean Véronis), une application de ces techniques avec le moteur Wolfram Alpha, et les applications des ontologies et du web sémantique avec Jean Delahousse de Mondeca.

La reconnaissance des entités nommées et l’extraction de données

La REN (reconnaissance des entités nommées) est une sous-tâche de l’activité d’extraction d’information dans des ensembles de documents. Elle consiste à rechercher des objets textuels (c’est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que :

noms de personnes,
noms d’organisations ou d’entreprises,
noms de lieux,
quantités,
distances,
valeurs,
dates,
etc.

Réussir à reconnaitre les entités nommées a des applications multiples, aussi bien au sein des sites web que dans les moteurs de recherche.

Slide extrait de la présentation de Jean Veronis : comment détecter une entité au milieu de données non structurées, comment la reconnaître sans erreurs ?

Mais nous verrons au cours de la conférence que l’exercice est difficile et que tous les systèmes de REN et de data extraction ont tendance à faire des erreurs…

La conférence sera présentée par Jean Veronis.

Jean Véronis est un universitaire et un blogueur français (son blog : aixtal.blogspot.com). Il est professeur de linguistique et d’informatique à l’université de Provence, et consultant auprès de diverses entreprises de technologies, dont Orange et Pages Jaunes. Il est depuis septembre 2008 directeur scientifique du laboratoire de recherche privé Wikio Labs.

SEO Campus 2010 : cycle “Futurologie”

La reconnaissance des entités nommées et l’extraction de données par Jean Veronis

Samedi 20 Février 2010 à 16h00

Partager cette publication