Exploiter les données se prépare en amont
La data est le nouveau dada du monde informatique. Et non sans raison, car de la donnée brute peut naître une information utile, qui permettra à l’entreprise d’élargir et de mieux comprendre son marché, ses partenaires et ses clients. Et donc de mieux les adresser.
La data est devenue essentielle pour toutes les organisations, qu’elles soient privées ou publiques. Petit à petit, les professionnels découvrent les vertus des données dites «exogènes». Les données «endogènes» sont celles internes à l’organisation : fichier clients, bon de commande, document de suivi de la production, retour client capté par le SAV… Les données exogènes, celles venant de l’extérieur : météo, réseaux sociaux, tendances du marché, indicateurs, enquêtes…
Les données exogènes peuvent avoir un impact notable sur l’activité d’une organisation. Une vague de froid en plein mois d’avril peut ainsi relancer la vente de radiateurs électriques ou de soupes. Et un mauvais buzz sur les réseaux sociaux peut casser la dynamique d’une campagne de vaccination. Collecter et traiter ces données exogènes permet de mieux anticiper les tendances.
Les organisations savent depuis longtemps comment traiter leurs données endogènes : un entrepôt de données (Data Warehouse) stocke des informations structurées (ligne/colonne), qui seront par la suite exploitées et analysées.
Mais avec des données exogènes cela peut rapidement devenir un casse-tête. Suivre les retours des utilisateurs sur les réseaux sociaux peut se traduire par un volume de données colossal à capter, stocker et traiter. Quant à vouloir opérer un tri strict entre ce qui doit être collecté et ce qui ne doit pas l’être, c’est quasi impossible : savez-vous à l’avance quels critères auront un impact sur votre activité future ? Auriez-vous imaginé, il y a 15 ans, devoir un jour prendre en compte les données venant des réseaux sociaux ?
Bref, personne ne connaît à l’avance quelle donnée brute pourra être transformée en information utile, ni à quel volume s’attendre. Les organisations se retrouvent donc à devoir «ratisser large» dans le flot des données exogènes.
Lac ou marécage ?
Pour répondre à cette problématique de données massives, le fameux Big Data, les entreprises mettent en place des lacs de données, ou Data Lakes. Les données y sont stockées sous forme brute, avec un minimum de transformation. Mais le volume de ces données et leur utilisation sont souvent mal anticipés. Certains Data Lakes se retrouvent ainsi rapidement saturés : ils ne peuvent alors plus accepter de nouvelles données et les analyses prennent tellement de temps à s’exécuter que les résultats arrivent trop tard ou trop lentement pour être utiles à l’entreprise. Le lac de données devient alors un marécage, un «Data Swamp».
Pour éviter d’enliser son Data Lake, l’option Cloud reste la meilleure solution : il est possible d’ajouter des ressources, en stockage comme en puissance de traitement, au fur et à mesure des besoins. Et le coût n’explosera pas forcément, puisque la capacité de calcul requise pour traiter les données dans un temps raisonnable est facturée à l’usage.
Compter uniquement sur les capacités quasi illimitées du Cloud n’est toutefois pas suffisant, car elles ont un coût. Il ne faudrait pas que l’aspect économique devienne un frein empêchant de collecter et de traiter les données essentielles à votre activité. C’est à la DSI (direction des systèmes d’information, voire au Data Lab) d’organiser le Data Lake : collecte des besoins métiers attendus, mise en place et gestion des infrastructures nécessaires pour y répondre, puis mise au point et déploiement des modèles de traitement des données (en relation avec les métiers et des Data Scientists).
Collecter et traiter de la donnée en volume ne s’improvise donc pas : cela doit faire partie d’un plan stratégique, bien pensé en amont avec une gouvernance, correctement exécuté au quotidien et réévalué régulièrement pour prendre en compte les nouveaux besoins métiers.