Conceptual Resource Search Engine

Dans un article de Neteco, Fabien Gandon, chercheur de l’équipe Edelweiss de l’INRIA de Sophia Antipolis revient sur le web sémantique et nous rappelle qu’en dehors des projets menés par des sociétés privées, le monde de la recherche propose aussi des solutions qui visent à construire un web sémantique.

Je suis très loin d’être un spécialiste du web sémantique mais j’en suis les grandes lignes et les principales solutions et évolutions. Pour de plus amples détails ou précisions sur le web sémantique, le blog d’Olivier Ertzscheid reste une référence.

Toutefois pour revenir rapidement sur l’interview publiée dans Neteco voilà quelques points que je retiens ci-après.

Tout d’abord, et il s’agit là de ma contribution personnelle et de mon appréciation (n’engageant donc que moi), mais jusque là toutes tentatives d’organisation ou de rationalisation des pages web a lamentablement échouée. Les meta données, initialement mises en place comme un outil de description du contenu d’une page web, directement héritées de la logique documentaire, ont été rapidement détournées à des fins commerciales afin de leurrer les moteurs de recherche. Se déroule alors depuis une lutte incessante entre référenceurs / webmasters : du côté des moteurs de recherche une lutte sur les capacités de calcul afin d’indexer plus et avoir de “meilleurs” algorithmes de calcul de pertinence afin d’éviter toute fraude et de l’autre côté, les concepteurs de sites web / référenceurs, qui essaient de déjouer tous les travers des algorithmes de pertinence en jouant sur des méthodes telles que les pages satellites, les farm links, la génération de pages de contenu de façon automatisées, le cloaking etc. Fin de mon avis personnel!

Le web sémantique commence donc à s’imposer comme une solution visant à réconcilier les producteurs de contenu ordonné et les chercheurs d’information.

A l’instar du RSS et XML, les standards du web sémantique s’appellent RDF (Resource Description Framework) pour la partie description de contenu et Sparql pour la partie interrogation des dites ressources.

Corese – Conceptual Resource Search Engine – est un moteur de recherche gratuit, open source, en ligne qui a participé entre autre chose à la phase de normalisation du langage Sparql entreprise par le W3C.

Ce dernier a obtenu aux tests Sparql du W3C un score de 93%.

En dehors de ces technologies d’interrogation Sparql, Edelweiss travaille aussi sur des méthodes et des routines d’extraction de données structurées de pages webs, ce qui manque aujourd’hui cruellement à la plupart des outils de veille et pour cause…la donnée structurée est souvent absente des pages web.

Voilà, de biens beaux projets de recherche qui peuvent déjà trouver des applications et une petite piqûre de rappel pour se souvenir que les laboratoires de recherche français travaillent aussi d’arrache pied à la lisibilité et l’accessibilité de l’information sur Internet. Enfin, ce nouveau paradigme du web sémantique pourrait bien bouleverser complètement le mode de la recherche face à des moteurs de recherche leaders qui se sont positionnés sur une méthode un peu brutale d’indexation du contenu.

Pour aller plus loin :
La présentation Powerpoint de Corese

Aucun commentaire pour le moment.

Laisser une réponse