Lors de la deuxième séance de l’Open Data Design Group qui s’est tenue à l’ENSCI-les Ateliers le vendredi 25 novembre 2011, Alexandre Monnin, responsable de la Recherche Web et Métadonnées à l’IRI, doctorant en philosophie et membre associé à l'équipe de recherche Wimmics (INRIA Sophia Antipolis), a présenté un projet d’extraction et de structuration de données de Wikipédia.fr mené par l’INRIA.
Ce projet a vocation à constituer le pendant francophone à Dbpedia.org, une initiative portée collectivement par deux universités allemandes (University of Leipzig, Free University of Berlin) et une société spécialisée dans les technologies du Web de données, Openlink Software. L’objectif de Dbpedia.org est d’extraire des données structurées de Wikipedia.org et de les rendre librement accessibles et réutilisables, de façon à nourrir de très nombreuses applications de par le Web, fournissant ainsi un référentiel de fait d'un genre nouveau basé sur la contribution à Wikipedia.
Aujourd’hui, les entrepôts de données jouent un rôle central dans l’intelligence du Web (accessibilité et cartographie des ressources, pertinence des résultats des moteurs de recherche, etc.). Wikipedia est d'ores et déjà la plus grande encyclopédie au monde. Elle couvre non seulement de très nombreux domaines du savoir mais elle est également quotidiennement enrichie, corrigée et mise à jour par des milliers de contributeurs, en plus de 97 langues différentes.
L’objectif d’un projet visant à sémantiser Wikipédia est de constituer, grâce à cet effort communautaire sans précédent, une base sémantique qui reflète la richesse des entrées de cette encyclopédie, existe en différentes langues et soit enrichie par la mise en place de cercles vertueux d'enrichissements mutuels avec Wikipédia. Car l’atout de Dbpedia, contrairement aux systèmes d’information traditionnels de type thésaurus, est d'évoluer au rythme de la rédaction des notices sur Wikipedia. Dbpedia constitue dès lors une sorte de cartographie évolutive des aires de savoir répertoriées dans Wikipédia.
Malgré les moyens déployés par Dbpedia.org pour extraire des données de toutes les entrées de Wkipedia.org, y compris des pages dont il n’existe pas de version anglaise, beaucoup reste à faire pour intégrer les ressources francophones de Wikipédia, comme l’entrée « Frères Jacques », dans le Web de données. Il fallait donc une équipe et un budget dédié, et c’est à cette tâche que s’attelle l’INIRIA avec le soutien du ministère de la Culture et de la communication. La sémantisation de la version française de Wikipedia est un projet qui participe du rayonnement de la culture française et francophone.
L’atout principal de ce projet, le rendant complémentaire à Dbpedia.org, est sa grande proximité avec la communauté Wikimédia France, aujourd’hui convaincue de la nécessité de sémantiser Wikipedia.fr.
L’enjeu essentiel de la sémantisation d’une encyclopédie telle que Wikipedia, encyclopédie crée par les humains pour les humains, et des créer des entrées exploitables par des applications informatiques, des données utilisables par les machines, ce qui n’est pas le cas, par exemple, des info boxes de Wikipédia en l'état actuel des choses. Outre la structuration (et les info boxes, sont structurées) le travail de normalisation reste en effet à accomplir.
Dbpedia ouvre de nombreuses perspectives pour la recherche, l’industrie ou la culture. Il existe déjà de nombreuses applications dans le monde anglophone. Par exemple, Chris Wallace a développé un « Picture Book Mashup » s’appuyant sur Dbpedia qui intègre des données de Wikipedia, de Flickr et du Brooklyn Museum. Cette application exemplifie le rôle pivot que joue Dbpedia en permettant d’articuler ensemble différentes bases de données.
En France, le portail Histoire des Arts est un exemple d’application du Web de données au domaine culturel. Il s’agit d’un portail dédié à l’éducation artistique et culturelle, crée à l’initiative conjointe du Ministère de l’Éducation nationale, de la jeunesse et de la vie associative et du ministère de la Culture et de la communication. Il met à la disposition des enseignants des ressources mises en ligne par plusieurs institutions culturelles, dont la RMN et la Cité de la Musique. Grâce aux outils développés dans le cadre du projet HDA-Bo porté par l'Institut de Recherche et d'Innovation, également piloté par Alexandre Monnin, chacune des ressources est tagguée, et à chaque tag est associé une URI qui permet de désambiguïser le tag. Ainsi, les formats du Web Sémantique permettent-ils d'améliorer l'accès aux données par la mise en place d'un cycle qui associe harmonieusement technologies sémantiques et contribution.
Le projet Dbpedia comme le portail Histoire des Arts posent les questions centrales de l’open data pour les institutions culturelles. Alors que le directeur du Musée Reina Sofia à Madrid a récemment publié une tribune dénonçant l’exigence de rentabilité qui pèse aujourd’hui sur les institutions culturelles, engagées à « libérer » leurs données de fréquentation et leur données financières, Dbpedia et Histoire des Arts invitent à recentrer le débat sur l’open data culturel autour de l’enjeu de transmission des ressources culturelles. La donnée culturelle libérée n’est plus l’agent d’une exigence de transparence, mais a alors fonction de « décloisonner » et de « partager » les ressources entre institutions culturelles (plus de 350 dans le cas d'Histoire des Arts), entre bases de données, ainsi qu'entre l’institution et le public.
La présentation d’Alexandre Monnin sur ce projet francophone d’extraction et de structuration des données sur le modèle de Dbpedia a suscité une question essentielle qui se pose aux designers face aux bases de données « libérées » : comment un designer peut-il s’emparer d'un outil tel que Dbpedia ?
Francois Prosper | 30/03/12 | 16 h 16
Hello
Je ne sais pas où nous en sommes des travaux de ce groupe (pas eu de nouvelles :) mais un article d'Owni paru aujourd'hui m'a remis dans le bain : http://owni.fr/2012/03/28/des-donnees-culturelles-a-diffuser-opendata-bnus/ A bientôt peut-être ? /Fr
Publier un nouveau commentaire