Open Data. Qu'est-ce que c'est ? Quels enjeux pour le grand public ?

Publié par Romain Biard
12 janvier 2011 | Permalien | | TrackBacks (0)
Open Data. Littéralement "la donnée libre".
Voici un thème qui pourrait bien devenir porteur sur les prochains mois et prochaines années. Le principe d'open data est simple. Il s'agit de mettre à la disposition de tous des données publiques pouvant être issues du recensement par exemple, ou du fonctionnement de nos réseaux de transports. Ces données sont fournies par ceux qui les détiennent, à savoir nos représentants, ainsi que des organismes publics ou privés.

open-data-services-dossier-enjeux.jpg


Pourquoi commence-t-on à parler d'open data

Parce que jusqu'à maintenant le grand public n'avait pas accès à ces données. Tout ce que nous pouvions obtenir étaient des statistiques compilées au préalable par d'autres (l'INSEE par exemple fournit un gros travail de récolte et de traitement de données). 
Depuis peu, et de plus en plus à l'avenir, nous auront accès à des données brutes concernant la population française. Rennes a ainsi rendu public depuis quelques mois des données concernant sont réseau de transport, le plan de la ville, les déchets, la citoyenneté, le stationnement, ou les différents types d'équipements. Les données diffusées sont donc d'ordre général et respectent la vie privée. De plus en plus de villes devraient lui emboîter le pas, au premier rang desquelles Paris, qui a acté dans le courant de l'année 2010 la mise à disposition de ces données.


Quels enjeux pour le grand public ?

open-data-dossier-enjeux-france-rennes-paris.jpg
Ce débat, qui pourrait passer pour un débat d'initié, n'a d'intérêt que parce qu'il y a des enjeux pour le grand public. En effet, les données diffusées peuvent parfois faire l'objet d'un traitement de la part des organismes émetteurs, afin de les rendre exploitables et compréhensibles par tout un chacun, mais sont dans la plupart des cas rendues publiques sous la forme de données brutes. Il est donc peu aisé de les utiliser.
Mais c'est finalement mieux comme ca. Car en rendant public cette masse de données brutes, nos institutions donnent la possibilité à qui le souhaite (ou à toute personne disposant des compétences nécessaires, donc en général des développeurs) de créer des applications autour de ces données. Chacun pourra donc laisser libre court à son imagination, et travailler aux usages de ces données qui lui semblent pertinent. Au lieu d'avoir un outil de consommation de ces informations, nous auront donc à notre disposition une multitude d'outil, exploitant ces données de manière différente, et nous serons en mesure de choisir celui qui répond le mieux à notre besoin.

Pour stimuler l'innovation, la communauté urbaine de Rennes et la ville de Rennes ont ainsi lancé un concours qui récompensera les développeurs ayant mis en place les applications les plus utiles et les plus innovantes. L'objectif est de valoriser l'ensemble de ces données, et de faciliter l'accès aux services publics de l'agglomération.
Paris devrait mettre en place un évènement similaire au moment de la mise à disposition des open data concernant son agglomération.

Un autre enjeu important est de faciliter l'accès à ces informations pour la communauté scientifique. Beaucoup de travaux, qu'ils soient géographiques, anthropologiques, sociologiques ou autres, requiert en effet des données sur les territoires et les populations. Il y a donc un réel intérêt général à rendre celles-ci accessibles.

On peut également facilement imaginer que cela aura un impact sur le développement de l'économie locale, du moins pour les entreprises qui sauront tirer profit de ce savoir.

Enfin, un tel acte libératoire favorisera par ailleurs l'émergence d'un data journalism, un journalisme basé sur l'analyse d'un gros volume de données et moins sur des enquêtes de terrain. On cite ainsi fréquemment le site Owni comme précurseur de ce type de journalisme.


Quelles questions sont soulevées par la mise à disposition de ces corpus de données ?

Tout d'abord, pourquoi parler de corpus de données ? Si l'on en croit la définition donnée par le Trésor de la Langue Française, un corpus de données est un "ensemble de données exploitables dans une expérience d'analyse ou de recherche automatique d'informations."

La première d'entre elles est : sous quel statut publier ces données ? C'est notamment une réflexion que mène actuellement la ville de Paris. Etre capable de définir les droits qui sont associés à ces données, et ce que les utilisateurs de celles-ci peuvent en faire est primordial. Doivent-elles être réservées à un usage non-lucratif ou certaines sociétés pourront-elles commercialiser les résultats produits par les outils qu'elles auront développer ? Tout le monde pourra-t-il les utiliser ou existera-t-il des restrictions ? Leur usage devra-t-il être privé ou pourra-t-il être public et servir à tous ?
Miniature de l'image pour creative-commons.png
Traditionnellement, lorsque l'on parle de contenu internet (photos, textes, vidéos, etc...), on choisit ou non de placer son contenu sous le droit des Creative Commons. Il s'agit d'un ensemble de droits acceptés de manière internationale qui permettent de spécifier si l'on veut que son contenu ne puisse pas être repris, ou repris mais pas utilisé à des fins commerciales, ou repris sans restriction, etc...
Dans la même veine, des réflexions sont en cours pour créer des droits d'usage spécifiques à ce type de données. On pourra ainsi noter l'existence de l'Open Data Commons. L'APIE (Agence du Patrimoine Immatériel de l'Etat) a elle aussi mis en place une méthode de classification des données par le biais de pictogrammes.
logo-apie.jpeg
Bien choisir les droits d'usage de ces données pour communiquer de manière claire sur les opportunités offertes est donc essentiel à une bonne utilisation de celles-ci.

Une deuxième question soulevée par la mise à disposition des données est celle du coût de l'exploitation de celles-ci. En effet, si l'on peut ne pas souhaiter qu'une démarche lucrative s'engage autour de celles-ci, on ne peut nier le fait que développer des outils permettant de traiter ces informations et amenant un service au plus grand nombre ait un coût. Il faut donc trouver un moyen pour les créateurs de services, sociétés ou développeurs, de rentrer dans leurs frais. On peut ainsi considérer que la vente des services créés ou des résultats générés par l'usage d'outils exploitant les données rendues libres puisse être autorisée, dans la mesure où cette vente ne sert qu'à couvrir les coûts inhérents à leur exploitation. On serait donc dans l'application textuelle du terme "non-lucratif" qui signifie bien que des revenus peuvent être générés mais exclusivement pour compenser les coûts de gestion.
Cela signifierait que l'on accepterait la mise en place d'outils ou de services exploitant ces données qui ne soient pas gratuit. Ce type de question nécessite une réflexion approfondie et des débats pour permettre la définition d'une charte d'utilisation des données publiques.


L'ouverture de données publiques est donc un véritable enjeu de société, avec pour conséquence un accès facilité à certains services publiques. Tout reste encore à faire dans ce domaine, mais nous ne pouvons que nous réjouir que certains de nos dirigeants aillent d'ores et déjà dans ce sens, et il nous faut maintenant en appeler à une généralisation de ces pratiques.
Il est à noter que des projets de centralisation des différentes données disponibles et de recensement des outils les exploitants existent déjà. C'est le cas notamment de Data Publica, mais également de Regards Citoyens, qui s'intéresse à l'information politique (entre autre via le site nosdeputes.fr), ou encore de DataLift qui se présente comme un catalyseur pour le web des données. Le but du projet DataLift est ainsi de développer une plateforme pour publier et interconnecter des jeux de données sur le web.

La France n'est ni en retard, ni en avance sur le sujet. Mais des pays, anglosaxons notamment, commencent à prendre conscience de ces enjeux. Il serait bon que nous ne perdions plus de temps et que nous y réfléchissions également. Un parallèle pourra d'ailleurs être fait entre une telle démarche et une réflexion plus globale sur un bon usage de la transparence, puisque ce sujet a pas mal agité les esprits à l'automne 2010, suite aux révélations mises en ligne par Wikileaks. Ne serait-ce pas là un bon moyen d'informer sans tomber dans certains excès ?
Valorisation de l'information, remise en cause du business model des media traditionnels, transparence, mise à disposition des données publiques, liberté d'expression... Ce qui est certain c'est qu'en ce début 2011 il existe un réel bouillonnement autour des propriétés intrinsèques du web.


Pour conclure, et en guise de complément à ce dossier, je vous invite à regarder cette vidéo très didactique de Charles Népote de la Fing.



Pour aller plus loin :
APIE : le site de l'Agence du Patrimoine Immatériel de l'Etat
Site où sont mises à disposition les données de la ville de Rennes
OpenStreetMap : une cartograhie collaborative
Travaux de la Fing sur la réutilisation des données
Data World Bank, les données libres de la banque mondiale
NosDonnées.fr : site recensant des jeux de données


Aucun TrackBack

TrackBack URL: http://www.typepad.fr/cgi-bin/mt/mt-tb.cgi/4607

Laisser un commentaire