SEO Campus 2010 : reconnaissance des entités nommées et extraction de données

SEO Camp’us 2010 : J-3

Faire découvrir les techniques avancées utilisées dans les moteurs de recherche est l’une des raisons d’être des séminaires SEO Camp’us. Après les mathématiques du calcul du pagerank et la linguistique statistique l’an passé, cette année, un cycle de trois conférences permettra de découvrir la reconnaissance des entités nommées et l’extraction de données (conférence de Jean Véronis), une application de ces techniques avec le moteur Wolfram Alpha, et les applications des ontologies et du web sémantique avec Jean Delahousse de Mondeca.

La reconnaissance des entités nommées et l’extraction de données

La REN (reconnaissance des entités nommées)  est une sous-tâche de l’activité d’extraction d’information dans des ensembles de documents. Elle consiste à rechercher des objets textuels (c’est-à-dire un mot, ou un groupe de mots) catégorisables dans des classes telles que :

  • noms de personnes,
  • noms d’organisations ou d’entreprises,
  • noms de lieux,
  • quantités,
  • distances,
  • valeurs,
  • dates,
  • etc.

Réussir à reconnaitre les entités nommées a des applications multiples, aussi bien au sein des sites web que dans les moteurs de recherche.

Slide extrait de la présentation de Jean Veronis : comment détecter une entité au milieu de données non structurées, comment la reconnaître sans erreurs ?
Slide extrait de la présentation de Jean Veronis : comment détecter une entité au milieu de données non structurées, comment la reconnaître sans erreurs ?

Mais nous verrons au cours de la conférence que l’exercice est difficile et que tous les systèmes de REN et de data extraction ont tendance à faire des erreurs…

La conférence sera présentée par Jean Veronis.

jeanJean Véronis est un universitaire et un blogueur français (son blog : aixtal.blogspot.com). Il est professeur de linguistique et d’informatique à l’université de Provence, et consultant auprès de diverses entreprises de technologies, dont Orange et Pages Jaunes. Il est depuis septembre 2008 directeur scientifique du laboratoire de recherche privé Wikio Labs.

SEO Campus 2010 : cycle « Futurologie »

La reconnaissance des entités nommées et l’extraction de données par Jean Veronis

Samedi 20 Février 2010 à 16h00

2 réactions sur “SEO Campus 2010 : reconnaissance des entités nommées et extraction de données”

  • Mapics

    Le programme semble intéressant mais il y a aurais été bien d’être plus précis dans l’utilité d’utilisé cette façon de faire et quelle sont les déboucher qui peuvent en découler.

  • Matthieu Paris

    Bonjour
    à partir d’une grande collection de documents html, je cherche un outil opensource permettant l’extraction d’entités nommées et le marquage dans le document des entités nommées.
    bonvez vous me donner quelques pistes ?

    Merci

Les commentaires sont fermés