Mettre en place une stratégie Data dans l'entreprise
LES OBJECTIFS
La mise en place d'une stratégie data en entreprise vise divers objectifs, externes ou internes, quantitatifs ou qualitatifs. Il peut s’agir notamment de la croissance du chiffre d'affaires, de la réduction des coûts, ou de l’amélioration de l'expérience utilisateur. Globalement, l’analyse fine de données massives facilite la prise de décision et renforce la performance opérationnelle.
Lire aussi : Les acteurs de la stratégie Data
Les finalités de la mise en place d’une stratégie data au sein de l’entreprise peuvent être diverses et comporter des objectifs externes ou internes, quantitatifs ou qualitatifs.
Tout d’abord, la stratégie peut viser la croissance du chiffre d’affaires. En analysant les données sur les prix, la demande, la concurrence et les coûts, il est possible d’adapter les tarifs pour trouver le point d’équilibre entre optimisation des marges et compétitivité face à la concurrence. L’analyse des données relatives aux clients procure une meilleure compréhension de leurs besoins, préférences et comportements. Il est possible ainsi de personnaliser les offres de manière plus pertinente, d'adapter les produits ou services en fonction des attentes détectées et, de manière plus générale, de parfaire la fidélisation des clients. L’étude des données facilite aussi l’identification des segments clients les plus rentables ou les plus prometteurs afin de concentrer les efforts marketing sur ceux-ci avec des messages pertinents et personnalisés.
D’autre part, la détection des actions effectuées par un client, de la naissance du besoin jusqu'à l'acte d’achat ou au contraire des facteurs qui l’amènent à ne pas concrétiser son intention d’achat, aide à maximiser le taux de conversion. Étudier finement les comportements et les préférences clients conduit à déceler des opportunités de vente de produits ou services complémentaires (cross-selling) ou de gamme supérieure (upselling). L'analyse des données historiques combinée à des techniques de prévision aide à anticiper les fluctuations de la demande, afin d’ajuster la production, les chaînes d'approvisionnement et la gestion des stocks. En période de croissance, cette analyse permet d’accroître les opportunités de vente en évitant les ruptures de stock. À l’inverse en période de ralentissement, elle contribue à réduire les coûts liés aux stocks de matières premières ou de produits finis inutiles, ainsi qu’à une main d’œuvre surnuméraire.
De ce fait, une réduction des coûts peut aussi être un objectif à la mise en place d’une stratégie data au sein de l’entreprise.
En première approche, étudier dans le détail, grâce aux données, les coûts de l’entreprise contribue à identifier les secteurs où ils sont élevés par rapport aux performances afin de faire porter, en priorité, les efforts d’optimisation sur ceux-ci. Cela peut inclure l’automatisation, la rationalisation ou la révision des processus sous-jacents. Ensuite, détecter les dépenses les plus importantes permet d’envisager des alternatives moins onéreuses ou d’entreprendre des négociations avec les fournisseurs afin d’obtenir des conditions préférentielles.
Il est également possible d’étudier en profondeur les données des fonctions clés de l’entreprise. Par exemple, optimiser les coûts associés à la gestion des stocks grâce aux données sur les niveaux de stocks, prévisions de la demande et cycles de ventes. Ceci concourt déjà à l’amélioration de la chaîne d’approvisionnement et peut être complété par l’identification des goulets d’étranglement et l’optimisation des délais de livraison, pouvant ainsi conduire à une réduction de coûts significative.
Détecter ou idéalement prévenir les fraudes entraîne également des économies pour l’organisation. Grâce à l’analyse des données, il est plus facile de repérer les anomalies, les comportements suspects ou s’écartant des normes établies.
Ainsi, il est possible de personnaliser l’expérience utilisateur en se basant sur l’analyse de leurs comportements, préférences, et besoins putatifs. Les systèmes de recommandation des réseaux sociaux ou des sites marchands en sont une illustration.
Mais il est aussi possible d’analyser finement les commentaires et évaluations laissés par les utilisateurs des produits ou services de l’entreprise pour apporter des améliorations continues et finalement mieux répondre aux besoins de ces derniers.
Les données peuvent, en outre, servir à optimiser le parcours utilisateur (experience map) en identifiant les obstacles sur lesquels ils butent à l’usage d’un produit ou service donné, puis en ajustant celui-ci afin de rendre l’expérience plus attrayante ou plus efficace.
In fine, si l’organisation fournit des services payants, il est fort probable qu’améliorer l’expérience et la satisfaction des utilisateurs accroitra leur fidélité et débouchera sur une croissance de l’activité. Dans le secteur non marchand, ceci contribue notamment à augmenter l’engagement des utilisateurs et à améliorer la visibilité et l’impact de l’organisation, de même que la confiance qu’elle inspire et la crédibilité qu’elle dégage.
Globalement, utiliser les données pour améliorer la prise de décision au sein de l’entreprise apporte une meilleure compréhension de l’environnement et fournit une vision plus précise de la situation. De ce fait, cela facilite l’identification des options envisageables et la sélection de celle qui sera retenue pour y faire face. L’objectif est de rationaliser la prise de décision en réduisant le risque d’être influencé par des biais personnels, d’être guidé par son intuition ou d’agir sur la base de suppositions. En conséquence, les décisions gagneront en efficience concourant ainsi à une meilleure adaptabilité aux changements. Se servir de données pour optimiser les processus métiers renforce la performance opérationnelle en maximisant l’utilisation des ressources tout en minimisant les coûts et les déchets.
La chaîne de traitements
Collecter
La première étape de la mise en place d'une stratégie de données consiste à identifier les données pertinentes et à distinguer celles provenant de sources internes de celles issues de sources externes. Ensuite, il est crucial d'établir des règles et des méthodes de collecte garantissant la qualité et la conformité des données aux lois et réglementations en vigueur, en veillant notamment à leur fiabilité, leur exactitude, leur pertinence et leur confidentialité.
Les données issues de sources internes sont celles générées par l’entreprise elle-même ou collectées à l’intérieur de l’entreprise. Parmi elles on trouve, par exemple, les données de ressources humaines (informations sur les collaborateurs), celles de production (informations sur les biens ou services produits), les données transactionnelles (commandes clients, achats, paiements…), les données de service clients (interactions telles les commentaires, plaintes, retours…), les données opérationnelles (chaîne d’approvisionnement, logistique…), les données financières (budgets, états financiers, factures, comptes clients…), les données de R&D (brevets, prototypes, essais…), etc.
Parmi les données provenant de sources externes à l’entreprise, les données sectorielles fournissent des informations sur le marché, la concurrence, les tendances économiques et la réglementation d’un secteur d’activité donné. Elles aident l’entreprise à appréhender son environnement, à détecter les menaces et les opportunités, puis à ajuster sa stratégie en conséquence. Elles sont principalement collectées auprès d'organisations gouvernementales, d'associations professionnelles ou de sites web de veille sectorielle. Les données des réseaux sociaux, pour leur part, incluent les commentaires, les mentions ou les partages liés aux interactions des clients sur les réseaux sociaux. Les données gouvernementales comprennent les informations sur les lois et les réglementations qui impactent l'entreprise. D’autres types de données sont plus spécifiques et seront d’un usage plus restreint. Par exemple, les données météorologiques, qui englobent les informations telles les prévisions et alertes, peuvent affecter les opérations de certaines entreprises.
Les informations relatives à certaines catégories de données clés pour l’entreprise peuvent être pour certaines d’entre elles internes, pour d’autres externes. Prenons l’exemple des données clients. Les informations de contact, les historiques d'achats, les données de facturation, les interactions avec le service client sont généralement stockées dans les systèmes de l'entreprise, comme les systèmes de gestion de la relation client (CRM : Customer Relationship Management). Ce sont des données internes. Les données démographiques, les comportements d'achat, les commentaires sur les réseaux sociaux, les enquêtes de satisfaction client, etc., sont souvent fournies par des fournisseurs tiers. Ce sont des données externes. Lors de la mise en place d’une stratégie de données d'entreprise, il est important de prendre en compte à la fois les données clients internes et externes pour obtenir une vue complète des clients de l'entreprise et de leurs comportements.
Ensuite, il faut établir les règles à appliquer afin de garantir la qualité des données et leur conformité aux lois et règlementations en vigueur. Il faut aussi définir les méthodes et outils employés pour effectuer la collecte. Ils dépendent des objectifs de celle-ci, du type et de la source des données. Des outils de fouille de données peuvent être utilisés pour récupérer ces données, structurées ou non, à partir de sources variées.
Des fournisseurs de données peuvent être sollicités pour obtenir certaines données externes. D’autres peuvent être recueillies via des enquêtes en ligne pour interroger facilement différentes parties prenantes, des outils d'analyse de site web pour recueillir le comportement des internautes (trafic, pages vues, taux de conversion, etc.), des outils de surveillance de réseaux sociaux pour suivre des mentions prédéfinies et les conversations s’y rapportant, le web-scraping pour extraire des données de manière automatisée à partir de sites web, des capteurs dans contexte de l’internet des objets (IoT : Internet of Things), ou encore via des équipements de surveillance tels des caméras.
La qualité des données est un point très important. En premier lieu, elles doivent être collectées à partir de sources fiables et représentatives. Il faut ensuite veiller à leur exactitude ainsi qu’à leur pertinence pour le problème à résoudre. Garantir leur exhaustivité revient à contrôler qu’elles couvrent bien tous les aspects de la question traitée. Examiner leur cohérence amène à éprouver qu’elles soient consistantes avec les autres données disponibles sur le même sujet. Enfin, bien entendu, elles doivent être d’actualité, en d’autres termes être à jour, donc collectées régulièrement.
Établir une politique de confidentialité des données pour garantir la conformité avec les réglementations en vigueur est indispensable. Celle-ci doit lister les types de données collectées, expliquer la façon dont elles seront stockées et utilisées, ainsi que les droits des individus concernant leurs données et les mesures de sécurité mises en place pour les protéger. Il est nécessaire d'obtenir le consentement explicite des individus avant de collecter des données qui leur sont propres (données d’identification et de contact, de santé, financières, de géolocalisation…). De plus, les personnes doivent être informées de la finalité de la collecte. Cette dernière ne doit concerner que des données strictement nécessaires à la finalité visée et qui ne doivent être conservées que pendant la durée nécessaire à la réalisation de cet objectif. Bien entendu, il faut assurer la sécurité des données, notamment en utilisant des méthodes de transmission et de stockage sécurisées et en limitant l'accès aux seules personnes autorisées. Enfin, pour garantir la conformité avec le Règlement Général sur la Protection des Données (RGPD), nommer un délégué à la protection des données (DPO) est obligatoire pour les organismes publics et pour les entreprises qui réalisent un suivi régulier et systématique de personnes, ou traitent des données sensibles, à grande échelle. Le DPO est chargé de conseiller l'organisme sur les questions de protection des données et de coopérer, le cas échéant, avec les autorités de contrôle.
Stocker
Une fois les données collectées, il est bien entendu indispensable de les stocker de manière efficace, organisée et sécurisée, nécessitant à la fois une infrastructure adéquate et une politique de sécurité appropriée. Différentes architectures de stockage, telles que les bases de données relationnelles ou NoSQL, ainsi que les options de stockage local ou sur le cloud, sont disponibles. En termes de sécurité, des protocoles robustes, une formation des employés, et des mesures de sécurité telles que la gestion des accès, le cryptage des données, les sauvegardes régulières, et la mise à jour des logiciels sont essentiels pour protéger les données contre les risques.
Après avoir collecté les données il convient de mettre en place une infrastructure de stockage composée de ressources matérielles et logicielles.
Pour stocker les données, différentes options et architectures sont possibles, comme des bases de données relationnelles pour des données structurées ou NoSQL pour des données non structurées, des entrepôts de données, des solutions de stockage locales ou sur le cloud.
Tout d’abord, les données peuvent être stockées localement sur des serveurs physiques appartenant à l'entreprise. Cette solution garantit un contrôle total sur les données et une bonne maîtrise de la confidentialité. Cependant, l’entreprise en est alors la seule responsable et elle doit mettre en œuvre une politique robuste et efficace. Le stockage local offre un accès rapide et fiable aux données, celles-ci étant accessibles directement depuis le réseau de l'entreprise. De plus, les coûts sont assez facilement prévisibles. L'investissement initial est certes important, mais les coûts de maintenance et d’exploitation sont relativement stables dans le temps, même si bien entendu ils se cumulent au cours du temps. Le principal inconvénient est le manque de flexibilité et de capacité à s'adapter rapidement aux fluctuations de la demande de ressources. L’entreprise doit surveiller en permanence l’utilisation de son espace de stockage et prévoir les ressources suffisantes pour répondre à ses besoins futurs et faire face aux pics de charge. Mais, si la demande réelle est inférieure aux prévisions ou si la charge est très contrastée au cours du temps, cela entraîne des coûts supplémentaires inutiles.
Le cloud public dans lequel les données sont stockées sur des serveurs distants gérés par un fournisseur de cloud public tel que Amazon Web Services (AWS), Microsoft Azure ou Google Cloud. Cette option apporte une grande flexibilité et une forte évolutivité, mais peut poser des problèmes de confidentialité des données. Il faut en effet prendre en compte le pays dans lequel les données sont physiquement stockées, les lois et réglementations en matière de confidentialité et protection des données variant considérablement d'un pays à l'autre. Ainsi, en fonction du pays de stockage, les autorités locales peuvent avoir accès aux données stockées, même si elles appartiennent à une entreprise étrangère. De plus, il est nécessaire de s’assurer que les normes et mesures de sécurité du fournisseur sont alignées avec les standards de l’entreprise.
Le cloud privé permet le stockage des données sur des serveurs distants appartenant à l'entreprise et gérés par elle-même. Donc, le niveau de sécurité est similaire à celui du stockage en local, tout en offrant théoriquement la flexibilité et l'évolutivité du cloud public. Cependant, l’entreprise étant responsable de la gestion de sa propre infrastructure, la complexité est beaucoup plus élevée et la flexibilité et l’évolutivité réelles dépendent grandement de la capacité de l’entreprise à gérer son cloud de manière optimale et à mobiliser rapidement des ressources supplémentaires pour augmenter la capacité en cas d’augmentation de la charge. En termes de coût, la mise en place demande un investissement important en raison de l’achat du matériel et de l’embauche de spécialistes, mais le coût d’utilisation est généralement plus prévisible que dans celui du cloud public. En effet, l’entreprise évite les coûts cachés comme les possibles frais de transfert de données ou de mise en réseau qui peuvent varier considérablement selon les fournisseurs et elle a la garantie de ne pas subir d’augmentation de tarif de la part du prestataire.
Le cloud hybride offre la possibilité de stocker certaines données dans le cloud public et d’autres, en local ou dans un cloud privé. Cette solution procure la flexibilité et l’évolutivité du cloud public tout en représentant une sécurité supplémentaire. Par exemple, les données hautement confidentielles ou réglementées peuvent être stockées localement pour des raisons de sécurité et de conformité, tandis que les données moins sensibles peuvent être stockées dans le cloud public pour réduire les coûts et augmenter la disponibilité.
La définition de protocoles de sécurité robustes est indispensable à l’instar de la formation régulière des collaborateurs à ceux-ci. Les risques de sécurité doivent être évalués régulièrement pour identifier les vulnérabilités potentielles et mettre en place des mesures de sécurité appropriées. En premier lieu, seuls les employés ayant un réel besoin d'accéder aux données dans le cadre de leur mission doivent y avoir accès. Ensuite, outre une politique de gestion des mots de passe éprouvée (mots de passe longs et complexes et régulièrement modifiés), la double authentification, comme l’usage d’un code de vérification envoyé par SMS ou d’une clé de sécurité physique, ajoute une couche de sécurité supplémentaire pour les comptes ayant accès à des données sensibles. Des outils, tels les gestionnaires d'identité, facilitent la protection contre les accès non autorisés en contrôlant l’identité et les permissions des utilisateurs. Les données sensibles devraient être cryptées pour les protéger contre les attaques lors de leur transfert ou une fois stockées. Bien entendu, des sauvegardes régulières sont indispensables pour éviter des pertes de données en cas de sinistre. Ces sauvegardes doivent être stockées dans un endroit sécurisé, si possible hors site. Enfin, les logiciels utilisés pour stocker ou traiter les données doivent être régulièrement mis à jour pour corriger d’éventuelles failles de sécurité. De manière plus large, il est impératif de porter une attention particulière aux communications réseau. Les pare-feu (firewalls) ont pour fonction de protéger le réseau de l'entreprise en bloquant les accès non autorisés. Il est important de surveiller l'activité du réseau en temps réel, afin de détecter les tentatives d'intrusion et les activités malveillantes avant qu'elles ne deviennent des problèmes de sécurité avérés.
Transformer
La phase de préparation des données implique le nettoyage, la normalisation, l'enrichissement et l'agrégation des données brutes. Elle est réalisée à l'aide de langages de programmation comme Python ou R, ou d'outils d'ETL (Extract, Transform, Load).
Cette phase consiste à préparer les données brutes pour les transformer en données utiles pour l'analyse. En effet, les données brutes sont fréquemment incohérentes, mal structurées, incomplètes, ou peuvent comporter des erreurs et ne sont donc pas directement utilisables. Parmi les traitements possibles, le nettoyage supprime les données inutiles (doublons, données obsolètes…) ou corrige des erreurs.
La normalisation convertit les données dans un format standardisé pour faciliter leur utilisation et leur analyse. Par exemple, elle harmonise les formats de date et heure pour qu'ils soient cohérents dans l'ensemble du jeu de données.
L’enrichissement ajoute des données supplémentaires pour améliorer la qualité et la complétude des données et ainsi pallier certaines données manquantes. Enfin, l’agrégation regroupe des données individuelles en fonction de critères spécifiques ; elle est souvent utilisée pour simplifier les données en réduisant la complexité et le bruit, et pour faciliter leur analyse et leur interprétation.
Analyser / Prévoir
Cette phase clé implique l'extraction, à partir des données collectées, d'informations appropriées en utilisant diverses méthodes telles que l'analyse descriptive, l'exploration de données, l'analyse prédictive, l’analyse prescriptive ou l'analyse en temps réel dont le choix se fait en fonction des objectifs visés et du type de données mises en jeu.
Cette étape est véritablement au cœur de la stratégie relative aux données puisqu’il s’agit d’extraire, à partir des données préalablement collectées et stockées, des informations pertinentes qui seront utiles à la prise de décision. Pour ce faire, un large éventail de méthodes s’offre aux Data Analysts et aux Data Scientists, qui effectuent leur choix en fonction de l’objectif de l’analyse, du type (par exemple structuré ou non) et du volume de données collectées, mais aussi du temps et des moyens disponibles. De même, en fonction du contexte, l’implémentation de l’analyse se fera préférentiellement avec un langage (souvent R ou Python) ou bien à l’aide d’un logiciel propriétaire.
Lire aussi nos articles : Le métier de data analyst | Le métier de data scientist
L’analyse descriptive permet d’appréhender les distributions des variables, via des représentations graphiques (ex : histogramme) ou des résumés numériques (ex : moyenne, dispersion), et les éventuelles relations entre elles, sans cependant chercher à expliquer les relations causales.
L’exploration de données (ou data mining) vise à découvrir des relations, des anomalies, des tendances ou des modèles au sein d’un grand volume de données. Elle utilise pour cela des techniques plus avancées que l’analyse descriptive, tels l’analyse factorielle (ACP, AFC, ACM) ou le clustering. L’analyse factorielle permet de mettre en lumière les relations conjointes entre toutes les variables et d’extraire des variables synthétiques. Le clustering permet quant à lui d’établir des segmentations d’individus.
L’analyse prédictive repose sur l’emploi d’algorithmes, supervisés, de machine learning. Elle se base sur l’analyse de données historiques afin de déceler des relations et des modèles pour prédire ce qui est susceptible de se produire dans le futur. Ses domaines d’application sont larges, par exemple en marketing, elle est utilisée pour anticiper le comportement des clients à la suite d’une campagne ou d’une promotion, en finance pour envisager les tendances de marché ou les risques de crédit, en médecine pour prédire les risques de maladie et les taux de décès, dans l’industrie pour prévoir les taux de production et les pannes des équipements, etc.
L’analyse prescriptive se concentre sur la recommandation de la meilleure action à entreprendre pour optimiser un résultat particulier, contrairement à l'analyse descriptive qui se concentre sur la compréhension de ce qui s'est produit dans le passé, et à l'analyse prédictive, qui se concentre sur la prévision de ce qui va se produire à l'avenir. Elle exploite souvent des techniques telles que la programmation linéaire, la programmation par contraintes, ou encore les algorithmes génétiques qui permettent d'identifier la meilleure combinaison de facteurs ou d'actions pour atteindre un résultat souhaité tout en respectant des contraintes spécifiques. Elle est précieuse dès qu’une question d’optimisation ou de planification est au cœur de la problématique, par exemple pour la gestion des stocks, des itinéraires, des réseaux électriques ou encore la planification de la production, des prix de vente ou des ressources humaines.
L’analyse en temps réel traite les données au fur et à mesure qu’elles sont collectées et retourne un résultat presque immédiatement, contrairement aux méthodes traditionnelles dont le temps de traitement peut se chiffrer en heures, jours ou même semaines. Pour cela, elle a recours à des systèmes de traitement de flux de données souvent basés sur des architectures de traitements distribués dans lesquelles les données sont traitées en parallèle sur plusieurs nœuds. Elle peut aussi tirer parti de systèmes de bases de données en mémoire ou d’algorithmes spécifiques de machine learning en ligne. Son but est de fournir des informations sur des événements en cours et d’aider à une prise de décision en temps réel. Elle est particulièrement adaptée à des domaines comme la surveillance (sécurité, transports, processus de production industriels…) ou la détection de fraudes.
Diffuser
Pour diffuser efficacement les résultats des analyses, il est essentiel de tout d’abord identifier les parties prenantes concernées. Il convient ensuite de présenter les résultats de manière claire, dénuée de jargon technique et en ayant recours à la dataviz pour communiquer de manière concise et impactante.
Il est tout d'abord important d'identifier les parties prenantes concernées par les résultats des analyses effectuées (direction de l'entreprise, départements spécifiques, clients ou partenaires externes…) et de les impliquer dans le processus de diffusion. Cela permet de s'assurer que les résultats sont bien compris, de vérifier que la présentation répond aux attentes et de la faire évoluer le cas échéant.
Les résultats doivent être présentés clairement, dans des termes précis et dénués d’ambiguïté, en évitant le jargon technique ou propre à un métier. Il est possible d’utiliser des formats de présentation différents suivant le public auquel on s’adresse ou suivant le type d’analyse effectué. De plus, il est souhaitable de contextualiser les résultats obtenus pour faciliter la compréhension de leurs implications et leur pertinence pour la prise de décision.
La présentation des résultats passe par l'utilisation la dataviz (data visualisation). Des visualisations de données telles des tableaux, graphiques, diagrammes, cartes, infographies sont généralement des moyens efficaces pour communiquer des résultats complexes de manière claire et concise. Les tableaux de bords interactifs fournissent des visualisations personnalisées qui mettent en évidence les principaux résultats et, si nécessaire, permettent en temps réel une exploration plus approfondie des données pour mettre en lumière les tendances et les relations. Enfin, l’usage d’outils de réalité virtuelle ou de réalité augmentée permet de visualiser les données en 3D ou pour créer des visualisations interactives offrant aux utilisateurs d'interagir avec les données de manière immersive.
LES PIÈGES À ÉVITER
Lors de la mise en place d'une stratégie de données, plusieurs écueils potentiels doivent être pris en compte. Parmi eux figurent le défaut de définir clairement les objectifs de la stratégie, ce qui peut entraîner des données non alignées avec les besoins réels de l'entreprise et une coordination inefficace dans la gestion des données. De plus, des lacunes en fiabilité, complétude ou actualité des données peuvent fausser le processus d'analyse, entraînant des erreurs dans la prise de décision et des risques financiers et réglementaires.
Le premier écueil est certainement de ne pas définir précisément, en amont, les objectifs et attendus de la stratégie nuisant ainsi à la compréhension, par ses acteurs, des besoins globaux de l’entreprise. D’une part, les données collectées risquent de ne pas être alignées avec les besoins réels. D’autre part, le manque de coordination dans la gestion et l’analyse des données renforce le travail en silo et peut entraîner une duplication des efforts ou une perte de temps et de ressources en investissant, par exemple, sur des projets à faible valeur. De plus, ne pas avoir défini de critères de succès rend impossible l’évaluation précise de la stratégie et la mesure du retour sur investissement.
Un autre risque est celui du manque de fiabilité, complétude ou actualité des données, se traduisant par le fait qu’elles ne reflètent pas vraiment la réalité. Cela peut fausser le processus d’analyse et provoquer des erreurs dans la prise de décision avec un risque de pertes d’efficacité opérationnelle ou financières, sans compter les risques de réputation ou même réglementaires et les coûts induits par la correction des erreurs.
Il ne faut pas non plus négliger le manque de qualification ou de formation. Bien entendu, il faut tout d’abord s’assurer de disposer des compétences techniques requises pour la mise en œuvre de la stratégie, au risque sinon de voir le déploiement de la stratégie retardé voire obéré. Un manque de ressources internes, s’il faut avoir recours à des experts externes, engendrera des coûts supplémentaires qu’il convient d’avoir budgétisés. Mais, il est tout aussi important que les décideurs soient formés à la prise de décision à l’aide de la donnée faute de quoi ils continueront vraisemblablement à se baser sur des hypothèses ou des intuitions erronées et risquent de prendre des décisions inappropriées ou de ne pas faire preuve de l’efficience visée.
Pour sa part, le manque de sensibilisation aux aspects RGPD conduit à un risque de non-conformité et à de possibles conséquences juridiques et financières, pouvant aller jusqu'à 20 millions d'euros ou 4% de leur chiffre d'affaires mondial annuel, pour les entreprises opérant dans l’Union européenne. Sans compter le risque réputationnel si celles-ci sont reconnues coupables de violation de la réglementation en vigueur ou d’utilisation non éthique des données. Notamment, s’il est avéré qu’elles ne respectent pas la vie privée des personnes, manquent à leur devoir d’information ou de transparence sur les finalités de la collecte ou s’il apparait que leurs modèles ou algorithmes sont biaisés ou discriminatoires envers certains groupes de personnes. Ceci peut affecter leur image, leur crédibilité et avoir une incidence sur leur chiffre d’affaires. Il en est de même si elles ne sont pas capables de garantir la sécurité et la confidentialité des données et de mettre en place des procédures pour détecter, signaler et gérer les incidents liés à une possible faille de sécurité. Sans oublier de porter une attention toute particulière aux données sensibles, telles les données de santé ou les données biométriques.
Un manque de moyens techniques ou de budget peuvent engendrer des retards dans l’implémentation des projets ou même, suivant leur importance, l’impossibilité de mettre en œuvre la stratégie. À l’inverse, une utilisation intensive des data centers et des équipements informatiques dans leur ensemble peut conduire à une consommation énergétique prohibitive avec un impact bien entendu financier, mais également en termes de développement durable. L'amélioration de l'efficacité énergétique des centres de données et des équipements informatiques, l’optimisation de leur utilisation (virtualisation, gestion dynamique de la charge de travail, systèmes de refroidissements intelligents…) et l’optimisation algorithmique (génie logiciel) peuvent contribuer à réduire l’empreinte environnementale.
Une dernière erreur serait d’omettre de maintenir et améliorer la stratégie au fil du temps sans quoi, même si elle était pertinente à sa création, elle risque à terme de ne plus donner satisfaction. Cela peut inclure, entre autres, la mise à jour des sources de données, l'amélioration de la qualité des données ou la mise à jour des techniques d'analyse utilisées. Des ajustements devront vraisemblablement aussi être apportés en fonction des retours des décideurs, des métriques de suivi de l’efficacité de la stratégie et bien entendu de l’évolution des objectifs de l'entreprise. Une veille technologique et réglementaire est également requise afin d’avoir connaissance des progrès et contraintes induits, d’en évaluer les impacts et de procéder aux améliorations et adaptations nécessaires.
Lire aussi : Les acteurs de la stratégie Data