Freebase, la machine à créer un Google du web sémantique

Tech

actualité

• 7 Min

Cela vous intéressera aussi

“Créer les synapses du cerveau global” : c'est ainsi que Tim O'Reilly, appelé à réagir pour le New York Times, salue la création de Freebase. Cette première réalisation de Metaweb, la nouvelle société du spécialiste des “machines intelligentes” Danny Hillis et de Robert Cook, se fixe en effet pour mission, selon ses propres termes, de créer “une base de connaissances communes, une base de données structurée, interrogeable, constituée et modifiée par une communauté de contributeurs“, ou encore “un espace public des données” (data commons).

au sommaire

Comment fonctionne Freebase ?
Les enjeux de freebase
À lire aussi

L'objectif est en effet ambitieux : créer en quelque sorte un GoogleGoogle du web sémantique, un répertoire global d'informations structurées, intelligibles et exploitables autant par des machines que par des humains - et donc capables d'extraire et d'interpréter les relations entre des données pour, par exemple, répondre à des requêtes par des solutions plutôt que des listes de documents.

Mais le web sémantique, qui repose sur l'ajout organisé de "métadonnées" chargées de décrire chaque document ou élément d'information ("cette vidéo dure X mn Y secondes, elle parle des sujets A et B, son réalisateur se nomme C, M. D et Mme E y apparaissent, sa référence est F..."), s'avère difficile à mettre en œuvre à grande échelle : il est traditionnellement difficile, y compris au sein d'une même entreprise, d'obtenir des acteurs, pris par les tâches quotidiennes qu'ils accomplissent, l'investissement nécessaire pour décrire correctement (et de manière cohérente) leurs propres productions.

C'est pourquoi les applicationsapplications du web sémantique demeurent, soit cantonnées à des universunivers relativement fermés (une entreprise, une certaine catégorie d'échanges entre les entreprises d'un même secteur, une catégorie d'objets tels que les livres ou les films...), soit très limitées (l'usage basique de XML dans le standard RSS, des "tags" dans de nombreux sites du "web 2.0″...). D'où l'émergenceémergence de ce qu'on nomme parfois "web 3.0web 3.0″, qui cherche à associer, d'une part, la dimension collective et la légèreté des outils du web 2.0 et d'autre part, la puissance des concepts du web sémantique.

Comment fonctionne Freebase ?

Comment Freebase compte-t-il s'en sortir ? De deux manières.

D'une part, Freebase structure les documents qu'il contient, il les décrit sous la forme de champs, chaque information recevant une signification particulière selon l'espace qu'elle occupe : ceci est un nom, ceci une date de création, une autre de modification, un montant, une adresse, etc.

capture d'écran de Freebase d'un article sur O'Reilly Media issu de Wikipédia.
À droite de la photo, on voit les champs de données à renseigner

D'autre part, Freebase s'appuie sur ses utilisateurs - eux-mêmes aidés par des outils simples et faciles d'accès ainsi que par des listes préétablies - pour remplir ses champs et catégoriser ses documents. Les internautes sont donc appelés à compléter les informations disponibles et à fournir des éléments pour mieux les indexer. Si les "ontologies" (les vocabulaires structurés de description et classement) proposées ne suffisent pas, ils pourront les compléter ; s'il manque un champ pour associer de l'information, par exemple à la fiche d'un film, ils pourront (sous contrôle, apparemment) le créer. Le tout sera mis en commun, à la manière d'un Wikipedia des micro-faits. Et de ce travail émergeront les relations entre informations, donc le sens...

C'est un peu comme si tous les champs d'une fiche d'un acteur sur LMDB, la base de données des films, étaient intelligents. La taille des acteurs par exemple serait alors non plus une valeur, mais une donnée qui permettrait de les classer du plus grand au plus petit et de comparer ce classement à celui de leurs revenus par exemple.

En un sens, on est très proche du wikiwiki sémantique et du fonctionnement de Semantic Mediawiki. La différence principale est que le code est devenu invisible, caché par des champs de données.

Pour comprendre comment marche Freebase, on se reportera au long article à visée pédagogique de Tim O'Reilly. Et pour tenter d'en imaginer certains usages et d'en percevoir la portée - potentielle - on se tournera vers Esther Dyson, enthousiaste :

"Freebase est avant tout un outil chargé de représenter le monde d'une manière intelligible par les ordinateursordinateurs que par les gens. Il peut améliorer les outils de recherche mais s'il suscite autant d'intérêt, c'est parce qu'il formera l'infrastructure d'applications beaucoup plus puissantes. (...)

Imaginons que vous deviez organiser un voyage à Moscou. Vous pouvez chercher des informations sur les centres de conférence et les hôtels, vérifier votre emploi du temps pour y caser vos rendez-vous, pourquoi pas recourir à Google ou Yandex le moteur de recherche russe, NDT pour optimiser vos déplacements... Mais au bout du compte, vous ne demandez pas des résultats de recherche : vous voulez réserver des hôtels, fixer des rendez-vous, communiquer avec les personnes que vous allez rencontrer. Tout ceci demande une compréhension fine de la manière dont s'articulent les lieux, les agendas, les personnes, les réunions et même les formulaires de remboursement de frais. (...)

Ce n'est qu'un exemple... mais il montre précisément combien les choses les plus simples peuvent être compliquées. L'idée (et le but de Metaweb) est de représenter cette complexité avec suffisamment de spécificité et de précision qu'un ordinateur puisse la manipuler. Vous ne vous contentez plus de trouver de l'information : vous pouvez demander à l'ordinateur de l'exploiter pour vous. Vous passez de la recherche à l'action."

Ainsi, Freebase associerait le meilleur de deux mondes, l'intervention libre des acteurs du web 2.0 (une expression qui a d'abord émergé en réaction à la lourdeur du "web sémantique") d'un côté et de l'autre, des structures et des grammaires précises pour faire émerger les relations entre informations.

Les enjeux de freebase

Esther Dyson encore :

"Une école de pensée dit que si vous collectez suffisamment de données et les bombardez de suffisamment d'algorithmes, la structure inhérente de ces données - et la compréhension de cette structure - émergera. (...) La récente explosion du tagging mots-clés qu'associent les utilisateurs à toutes sortes d'informations et de contenus, NdT en serait la démonstration : avec leurs tags, les utilisateurs créent des relations implicites entre les objets en ligne, et, par là, des réseaux complexes de relations émergent, avec leurs noeudsnoeuds, regroupements et autres structures riches. Mais les relations elle-mêmes sont pauvrement définies, par leur seul caractère "faible" ou "fort", les liens établis par mes amis ou par des autorités de confiance face à des liens créés par n'importe qui.

Par contrastecontraste, le point de vue opposé tient qu'il faudrait concevoir à la main les relations et les structures. Metaweb diffère de cette approche en ayant conçu intelligemment la grammaire à partir de laquelle les relations sont spécifiées, tout en s'appuyant sur la sagesse (ou la connaissance spécifique) et les efforts des foules pour créer le contenu - un contenu qui se compose, non seulement de données, mais de relations entre objets."

Freebase, en version alpha, balbutie encore. Les bases de données sont pauvres et peu originales, les outils en constructionconstruction, les testeurs rares. Il est donc trop tôt pour savoir si ses concepteurs, qui sont des visionnaires, des entrepreneurs et des ingénieurs très reconnus, parviendront vraiment à dépasser les difficultés structurelles du web sémantique.

Pour autant, comme le note Denny Vrandecic, l'un des concepteurs de Semantic MediaWiki, la force du système proposé est qu'il repose sur des APIAPI ouvertes, ce qui signifie que le système peut venir demain augmenter une application web existante, comme Wikipédia, LMDB ou le un catalogue de livres d'une bibliothèque par exemple. Denny Vrandecic note d'ailleurs d'autres différences entre son propre logiciellogiciel, dont le but est d'ajouter des relations et des attributs aux données, et Freebase : "Semantic MediaWiki est un wiki enrichi de certaines fonctions pour en structurer le contenu à partir d'un vocabulaire flexible, modifiable et collaboratif. Metaweb est une base de données, avec un schéma flexible, modifiable et collaboratif. Semantic MediaWiki permet d'étendre le vocabulaire plus facilement que MetaWeb (juste en écrivant une nouvelle relation), alors que Metaweb permet une plus facile mise en oeuvre du schéma du fait de sa structuration et de son interface sous forme de formulaire. Metaweb vient du monde des données structurées, même si la structure est ici flexible et changeante. Semantic Media Wiki vient du monde des données non structurées, qui peuvent être améliorées par quelques éléments de structure pour mettre en relation plusieurs éléments non structurés."

Freebase montre ce qu'il se passe quand on ajoute une couche sémantique dans de vastes champs de données. Au-delà du web 2.0 et des web services, c'est-à-dire de l'assemblage ad hoc d'applications et de données, Metaweb tente une approche systémique, beaucoup plus ambitieuse.

Y parviendra-t-il ? On identifie facilement deux obstacles : d'une part, la résistancerésistance des propriétaires de grandes bases de données (organismes scientifiques, entreprises, médias...) devant la perspective d'une mise en commun "profonde" de leurs informations ; d'autre part, les limites pratiques auxquelles se heurte habituellement la "sémantisation" : l'incohérence des structures et des vocabulaires, la redondance, la polysémie, le multilinguisme, la qualité extrêmement variable des indexations...

Metaweb, c'est son originalité, s'attaque à ces problèmes en s'appuyant sur trois réels atouts :

L'existence préalable de vastes répertoires publics d'informations et de connaissances, qui constituent un important socle de départ ;
La volonté et l'intérêt des internautes (ainsi que l'intérêt bien compris de certains détenteurs de bases de données, qui pourraient profiter de Freebase pour rendre leurs propres données plus complètes, plus fraiches et plus exploitables) ;
Et l'élégance de ses outils, dont on espère qu'elle réduira considérablement le "coût d'entrée" vers la participation au contenu.

Quel que soit son avenir, Freebase mérite d'être suivi de près. L'enjeu en vaut la chandelle.

Par Hubert Guillaud et Daniel Kaplan