Sabine Blanc

journaliste web

Préambule à un hackaton autour des données de l’Intérieur

Samedi dernier, la seconde édition français de l’Open Data Day était organisée dans plusieurs villes de France à l’initiative du chapitre local de l’OKFN.

On ne va pas se voiler la face, il y avait une poignée de personnes réunies à Paris, enfin à Montreuil, dont deux journalistes, moi compris. Plusieurs hypothèses :

- Les journalistes français se fichent de l’open data et des possibilités qu’il offre d’enrichir leur traitement de l’information et de trouver des informations tout court, voire ne savent pas ce que c’est.

- C’est les vacances d’hiver, les journalistes français sont au ski.

- La communication était lacunaire.

- Il y avait du rugby/les JO/la saison 2 de House of cards à mater.

J’avais prévu de bosser sur les données de l’Intérieur en prévision d’un vrai hackaton entre les deux élections du printemps. Malgré la maigreur des effectifs, la petite équipe constituée a pu avancer.

L’objectif était double :

1/ Cartographier et qualifier les 266 jeux de données actuels : lesquels sont en ligne, utilisés, propres (et vice versa), quel service les produit, car l’administration ne sait parfois pas elle-même où sont les données, a fortiori dans un organisme vaste et complexe comme l’Intérieur, etc.

Cette première partie a été en bonne partie effectuée grâce au travail de Timothée Carry, développeur, merci encore <3. Il a réalisé un script à partir de l’API de CKAN, l’outil utilisé par data.gouv.fr, aidé par Emmanuel Raviart, d’Etalab.

Concernant la qualité des fichiers, ce travail doit être fait à la main, il a été fait très partiellement, sur environ 70 jeux. L’origine des données, et donc le service à solliciter selon le domaine précis de travail – l’Intérieur est une grande maison –, se trouve parfois dans le fichier, le descriptif ou les tags, assez rares.

L’immigration, les élections, la sécurité routière, les services incendie sont les principaux thèmes qui ressortent. Iil serait intéressant de se rapprocher des organes qui produisent les données : SSM Immigration, Intégration, qui fait les stats pour l’Intérieur, l’Observatoire interministériel de la sécurité routière..., qui ont déjà alimenté data.gouv et doivent donc déjà être sensibilisés.

Vous trouverez le résultat ici

OpenDocument Spreadsheet - 60.7 ko

et la partie technique là.

Une grande majorité des fichiers sont du .xls et aucune réutilisation c’est indiquée. L’échantillon qui a été scanné de près montre qu’il y a souvent du travail de nettoyage à effectuer derrière, plus ou moins rébarbatif.

J’en ai profité pour demander à Emmanuel Raviart comment marchait l’outil qui permet de noter la qualité des fichiers.

En gros, c’est un module dans C-KAN qui génère une page web mise à jour en permanence, dès qu’un fichier est modifié, des bots y sont abonnés, qui testent plusieurs items : url, fichier joint, tags, etc.
Son point fort, « il existe, la note motive les producteurs », mais il reste encore à améliorer. Quant à l’abondance de .xls, pas très open data, Emmanuel préfère que les fichiers soient publiés tels quels, dans le format de travail de l’administration, car la conversion entraine des pertes de qualité, il fait confiance à la communauté pour repasser derrière.
Ce qui n’est pas faux, le « quick and dirty » a des avantages : quand un fichier est motivant, il se trouve effectivement des volontaires pour travailler dessus, sur les polices municipales par exemple, plusieurs nettoyages dans les jours qui ont suivi, ou dans un autre registre la réserve parlementaire. Mais c’est prendre le risque que certains fichiers potentiellement riches d’informations restent aux oubliettes. L’enjeu selon Emmanuel est que l’État se mette aux logiciels libres et aux formats ouverts, pas faux non plus. On pourrait aussi embaucher en parallèle un peu plus de monde dans les administrations pour mettre d’équerre les fichiers.

2/ Faire une liste de courses

Vu le manque de temps et en l’absence de profils « éditoriaux » (journos, chercheurs, etc.), point mort de ce côté.

Il faudra donc prévoir une seconde session de ce type pour bien préparer le hackaton et maximiser les chances de produire des objets intéressants susceptibles d’embarquer plus de monde dans l’open data et le datajournalisme.

Photo Flickr CC by nc sa @Doug88888 iMémisée.

1er mars 2014

Un message, un commentaire ?

modération a priori

Ce forum est modéré a priori : votre contribution n’apparaîtra qu’après avoir été validée par un administrateur du site.

Qui êtes-vous ?
Votre message
  • Pour créer des paragraphes, laissez simplement des lignes vides.