Est-il nécessaire de structurer l’open data ?

Avec le décret n° 2017-638 du 27 avril 2017 de la république numérique ouvrant l’accès aux données publiques, les fournisseurs d’informations sur les entreprises, les nouveaux acteurs digitaux et les grandes entreprises se sont mises à récolter et intégrer la plupart de ces données disponibles pour identifier et prospecter de manière plus efficace certains profils d’entreprises.

Cette profusion de données disponibles apporte une vraie richesse mais nécessite de bien identifier la source et de s’assurer de sa fiabilité avant de pouvoir les exploiter de manière efficace, sans que cela ne devienne un vrai sac de nœuds.

Comme le dit Christian Quest de l’Etalab, “la valeur de la donnée ne se révèle que lorsqu’on les relie entre elles”. Et c’est tout l’enjeu : relier les données de façon cohérente afin d’en tirer le meilleur parti.

Face à la croissance exponentielle de la data, la gouvernance des données apparait de plus en plus comme une nécessité pour les entreprises. Pour mettre en place cette gouvernance, il est important de s’entourer des bonnes compétences et de déployer les processus et la méthodologie adéquats.

Open data : une multitude de sources

L’open-data est un formidable atout et outil pour faire une photographie d’un marché ou d’un acteur dans son environnement. Même sans connaître l’écosystème, on obtient, de suite, une première impression et des pistes qui éveillent l’intérêt. Face à tant de données, trois interrogations essentielles doivent être posées :

  1. Les pistes et signes (manifestes) que l’on constate ont-ils un réel potentiel ?
  2. Comment vont vivre ces signes dans le temps ?
  3. Comment les relativiser et/ou les challenger avec d’autres sources ?

Une expertise plus fine est nécessaire pour mieux appréhender les subtilités des données captées, ainsi que l’évolution de celles-ci.

La photo est donc facile à faire mais la réalisation d’un film devient une gageure, à savoir faire évoluer ces photographies dans le temps, et les comparer avec d’autres sources gratuites disponibles : cela revient à faire un montage vidéo avec une panoplie de caméras radicalement différentes.

La toile de Pénélope ou la gestion multi-sources de l’open data

Dès que l’on rattache plusieurs sources open-data, on constate des incohérences d’informations.

D’une part, il faut éviter de croire que l’open-data vertical offre une garantie de couverture et de fraîcheur de données. Non, cela apporte une couverture officielle, une homogénéité dans la collecte (quoique…) et une certaine justesse dans le temps, si les tiers “collectés” ont fait leur devoir : toutes les entreprises n’indiquent pas leur changement d’adresse, encore moins de métiers, de dirigeants et de publications bilantielles. Certains organismes de l’Etat sont d’ailleurs non identifiés mais vous seriez surpris par le nombre d’établissements ayant pignon sur rue sans leur indispensable siret.

D’autre part, il faut bien prendre en compte la collecte de l’information initiale. La plupart des sources open-data de la république numérique se base en effet sur l’information SIRENE de l’INSEE, mais le plus souvent sur une vue annuelle, et donc pas vraiment à jour.

Dans une gestion multi-sources de référentiel, il est impératif d’appréhender les effets asynchrones et contradictoires d’informations analogues (INSEE vs Bodacc vs Greffe). Ce télescopage d’informations va s’accroitre avec les jeux de données locales issues des métropoles et des grandes villes qui sont désormais soumises à publication depuis octobre 2018. Et le fait que la donnée soit locale ne signifie pas qu’elle soit plus fraîche ou de meilleure qualité. Ces sources locales se basent souvent sur un “extract annuel” de l’INSEE, sur lequel ils ajoutent leurs propres données. Il faut donc bien distinguer quelle est la donnée de souche, et celle de référence, si on ne veut pas effacer une information plus fraîche et rendre ainsi caduque tout le travail de constitution du data-lake.

Au final, c’est en identifiant dans chaque source open-data quelles sont les vraies données enrichies ou spécifiques, que vous pourrez tirer le meilleur parti de votre collecte et vous éviter ainsi de défaire la toile de Pénélope en écrasant une donnée à jour par une donnée plus ancienne.

Par ailleurs, dans le domaine de l’information sur les entreprises, ces sources open-data ne sont pas toutes rapprochables au simple siren ou siret (l’identifiant unique de l’entreprise et de son établissement sur le territoire français), il va vous falloir effectuer du rapprochement sémantique et géographique. Sachez que c’est le métier historique d’Altares-D&B et que mes collègues et moi-même seront ravis de vous aider à maintenir et à fiabiliser ces bases.

Une fois tous les enregistrements recadrés, sirétisés et pondérés vous pouvez construire votre architecture d’informations, pour ensuite y rattacher vos données non structurées ou semi-structurées et vous pourrez enfin répondre à l’équation existentielle de la performance avec votre Big Data :

ation performance big data

Pour en savoir plus sur nos solutions de Master Data, je vous invite à assister à notre atelier au Salon Big Data Paris, intitulé « Structurer vos données pour mieux absorber le non structuré » le mardi 12 mars à 10h00 en salle C, ou à nous rendre visite sur notre stand A32.

Frédéric PARESY, Ingénieur Avant-vente et expert « BtoB Data » au sein d’Altares-D&B

La rédaction
La rédaction
La rédaction est composée de plusieurs collaborateurs du Groupe Altares qui sont spécialisés dans leurs domaines respectifs (data science, data marketing, data intelligence, etc.) et qui partagent l'envie de faire part de leur passion de la Data à nos lecteurs.

Vous aimerez aussi...

X