Compte-rendu : Fabrice Dennieau – Outils sémantiques avancés et référencement

Retour sur la conférence de Patrice Dennieau – Axiem – sur les outils sémantiques avancés et le référencement. Fabrice Dennieau est Business Development Manager au sein de la société Arisem – 30 personnes au sein du groupe Thalès – spécialisée dans les outils d’analyse sémantique des textes – logiciels de test-mining – outils qui annotent les textes. L’équipe au sein d’Arisem n’est pas spécialiste du SEO mais leurs outils sont utilisés dans un but de référencement. La présentation s’est articulée principalement autour de 2 cas d’usage : cas 1 = les éditeurs de contenu – cas 2 : les contenus structurés (sites marchands).

Le système d’outils sémantiques proposé par Arisem

Ce système comprend :
– un moteur d’analyse sémantique des textes
– 3 ressources de contenu majeurs : les dictionnaires – les grammaires (objectif : extraire une information qu’on ne connaît pas préalablement) – les ontologies (modélisation de l’information OWL = mettre dans un référentiel les mots-clés, les rubriques etc.)
– des outils d’annotation des concepts / ses structurations.

Cas d’usage 1 : les éditeurs de contenu

Ce premier cas d’usage correspond aux informations dites non structurées (article – blog – forum etc.)

Demandes : augmenter le trafic, le nombre de visiteurs uniques, temps passé sur le site – aide aux contributeurs pour cohérence de leur production / référencement – contenu à monétiser, valoriser, pour le revendre.
Réponse : mettre en place des annotations normalisées et sémantiquement cohérente Cf slide 7. = Mettre en place des annotations de contenu + extraire de l’information des contenus.
Ex : Annotation / article dans le point.fr. Article mis dans partie société – people concert / 14 juillet.
Méthode : on part de l’existant = corpus (mots clés – rubriques – thesaurus etc.)
Création d’une ontologie (faire des liens typés entre les éléments) pour créer un réseau sémantique de connaissances.
(1) Import du référentiel
(2) Enrichissement par analyse du référentiel (text mining engine)
Idée : faire correspondre requêtes des internautes avec leurs mots-clés
(3) Définition des positions de référencement. Ex : Le point = positionnement politique / people.
(4) Mise en production sur un ou plusieurs sites
Solutions et savoir faire : utilisation d’outil de publication web + moteur d’analyse sémantique. Le tout est couplé à une expertise SEO
Apports de la solution proposée : augmentation du trafic + gain en productivité (création de lien et production de contenu)

Cas d’usage 2 : les contenus structurés

Il s’agit notamment des contenus proposés sur les sites e-commerce.

Questions : comment relier un contenu à la modélisation sémantique de la connaissance préparée ?
Demandes : réduire le nombre d’échec dans les requêtes etc.
Existant : multi annotations en silos. / bases de logs non utilisés (or possibilité de comprendre ce que fait l’internaute)
Avant : contenus en rubriques et chaîne de notation qui tagguent sur les contenus.
Après : proposition de modéliser les infos sous forme d’ontologies. Reprise des logs des moteurs. Liaison dans l’ontologie des mots-clés avec le contenu.
Ex : client restaurateur – demande / liens entre rubriques – positionnement sémantique des rubriques les unes / aux autres.
Solution proposée : agrégation de données possibles (données contextuelles et données sémantiques) – circuit pour intégrer les nouveaux termes à partir résultats moteurs de recherche.
Solutions et savoir faire : utilisation des logs – moteur d’analyse sémantique etc.
Approche sémantique – spécialiste SEO
Apports : clients voulaient faire des analyses à l’intérieur pour comprendre le vrai positionnement natif d’un contenu (ratio sémantique) + possibilité de se positionner sur des choses connexes

Autres cas d’usage

Micro-formats = possibilité de publier des évènements via l’analyse des entités nommées.
Extensions RDF-A
Valorisation et monétisation du contenu (notamment pour contenus non structurés ex : avis, commentaires etc.) Possibilité d’analyse du contenu et proposition de nouveau contenu. Ex : extraction de citations, nominations (pour travailler une base de données).

Questions : taux d’erreur des entités nommées ?
Toujours des erreurs. Ici, outils d’analyse sémantique prédictifs, déterministes (erreurs prévisibles à l’avance).
Partie automatique / partie assistée ?
Cela dépend des sites – traitement automatique, mise à l’écart, simple aide à la modération
Enrichissement de l’ontologie ?
Préconisation d’un enrichissement par validation (termes les plus pertinents). Système automatique peu générer beaucoup de bruit.

Commentaires : plongée dans le monde du web sémantique, le web de demain dont les promesses commencent à se concrétiser. Le point fort de cette conférence a été de montrer l’intérêt de travailler en coopération entre spécialistes du web sémantique et spécialistes du SEO. Les cas d’usage présentés relèvent de sites à forte volumétrie et posent clairement la question des objectifs suivis, comme dans le cas 2 dans lequel les clients voulaient faire des analyses des requêtes tapées dans leur moteur interne pour comprendre le positionnement d’un contenu (selon un ratio sémantique prédéfini). Comme l’a expliqué l’intervenant, ces solutions basées sur des outils sémantiques sont de nature prédictive, élaborées à l’avance lors de la construction des ontologies (liens typés entre données) or la production d’ontologies est une phase très lourde et source d’erreurs potentiels dans l’analyse. De plus, même si les ontologies évoluent dans le temps, il reste à trouver le moyen d’intégrer les pratiques de classification issues du web social (folksonommie) et les pratiques du web sémantique (modélisation de l’information sous forme d’ontologies).

Nos sponsors : Hureca, Yooda, MyPoseo (Nos autres partenaires)