A l’occasion d’ICT
2008, la conférence européenne sur les technologies de l’information et
de la communication qui s’est tenu à Lyon du 25 au 27 novembre 2008, retour sur
quelques ateliers qui ont ponctué ces trois jours.
A quoi ressemblera le monde de l’information demain ? Pour Amanda West de Thomson
Reuters, l’agence de presse canadienne spécialisée dans
l’information financière, l’information demain sera intelligente.
C’est-à-dire qu’elle utilisera des applications sémantiques, des
métadonnées pour donner de l’information sur les données, pour aider
à structurer ce qui ne l’est pas (structuring the unstructured). Les bases
de données permettent de lier les documents, les gens, les lieux, les produits, les
informations sur les sociétés : mais pour cela, il est nécessaire de
structurer les données pour comprendre les relations entre les documents, entre les mots,
les concepts, les noms. L’idée qui sous-tend ce glissement vers l’intelligence
des données, c’est qu’elles puissent être lisibles non seulement par
des hommes, mais aussi par des machines. OpenCalais,
développé par Thomson Reuters est un web service, une plateforme qui accueille des
données non structurées sur lesquelles le système applique un traitement en
langage naturel sophistiqué et des techniques de machines apprenantes pour rendre les
contenus intelligents, c’est-à-dire, par exemple, pour que les données soient
capables de repérer un nom ou un lieu dans un ensemble de documents et établir par
ce biais des liens entre eux. OpenCalais sait structurer les données pour repérer
dedans les sujets, les entités ou les types de contenus (évènements, comptes
rendus, etc.). En s’appuyant sur OpenCalais, Reuters a développé de nombreux
outils comme
un outil de messagerie collaborative, Reuters
Real State, une plateforme communautaire pour surveiller les marchés, ou encore
OneSource Tax, un outil d’analyse des marchés.
Wilfried Runde de la Deutsche
Welle est confronté aux mêmes types de difficultés. Pour alimenter les
médias du groupe média allemand il faut être capable de diffuser sur une
multitude de tuyaux (le téléphone mobile, la radio, la télé, le web,
etc.) et via une multitude de canaux (sur
YouTube, iTunes, MySpace, Facebook,
Netvibes...). Un média aujourd’hui se doit d’être disponible sur
toutes les plateformes. Mais cela pose quelques problèmes, parce qu’il faut jongler
avec de plus en plus de plateformes, de systèmes, de technologies. Il y a un réel
besoin d’optimiser les outils et la gestion des flux d’information, de mieux
gérer les métadonnées, de créer des filtres, de rendre les archives
à la demande disponible, etc.
Selon le
Foreign Policy de Novembre-Décembre 2008 (enregistrement obligatoire), YouTube aura
bientôt une plus grande influence mondiale sur la façon de raconter les
évènements internationaux que n’importe quel média. D’où
le besoin de regarder les outils qui permettent dès à présent de chercher
dans les contenus vidéos comme Blinkx,
VideoSurf
ou Hulu. Et
inventer de nouveaux médias en ligne, remarquable, comme Monocle,
MediaStorm.
Frank
van Harmelen, de l’université d’Amsterdam, s’est lui
interrogé sur ce à quoi ressemblera l’univers de l’information demain.
Comment le construirons-nous ?
Aujourd’hui, l’univers de l’information est fait de pages web liées,
écrites pas les gens pour les gens et utilisées seulement par les gens. Même
si beaucoup de ces pages proviennent pourtant de données utilisables par des ordinateurs,
force est de constater qu’elles ne sont pas encore totalement utilisables par les
ordinateurs parce que nous ne savons pas encore lier les données entre elles. Pour cela,
il faut parvenir à lier les métadonnées entre elles pour qu’elles
soient utilisables par les ordinateurs et utiles aux gens.
Pour Frank van Harmelen cet avenir n’est plus si loin. Et d’évoquer le
Linked Open Data Cloud qui montre aujourd’hui les liens existants entre les
différents types de structures de métadonnées. Les normes sont là et
elles se multiplient. On sait aujourd’hui accéder à des bases permettant
d’identifier des chercheurs, des noms d’artistes, des noms de lieux
géographiques, des livres ou des albums de musiques existants... On pourrait par exemple
faire une requête sur une personne via tous ces protocoles pour trouver un scientifique,
les articles qui parlent de lui, les livres qu’il a écrits, ses collaborateurs voire
son réseau social, etc. Ces bases de données de métadonnées sont
chaque jour plus nombreuses et sont utilisables à distance, directement via des services
web.
“En 2006, on se demandait où nous allions trouver les données. En 2008,
on se demande lesquelles nous allons choisir”, résume le chercheur.
“Le succès de ces entrepôts de données, de ces bases de
connaissances et de ces web services ne risque-t-il pas d’ailleurs de devenir un
problème ?” D’où l’idée de développer un
Large
Knowledge Collider (LarkC), une plateforme évolutive en permanence capable de
comprendre le web des données, à l’image du
Large Hadron Collider du Cern. Et d’évoquer également MaRVIN,
une plateforme distribuée pour la déduction massive de données en RDF, le
standard de description des données développé par le programme qu’il
dirige. Pas sûr que cela permette à l’internaute moyen de mieux comprendre
l’enjeu de cette complexité grandissante des répertoires décrivant les
données.
“L’univers de l’information de demain sera assurément un web de
données”, conclut Frank van Harmelen. Un web à première vue
complexe pour l’internaute, mais pas pour les machines. Or c’est en utilisant mieux
les machines que nous parviendrons à nous simplifier la compréhension de
l’information.
intelligence des données,
web sémantique
