Qu'est-ce que le Machine Learning ?
Le Machine Learning, également appelé apprentissage automatique, est une sous-catégorie de l’intelligence artificielle qui se concentre sur le développement de modèles statistiques et d'algorithmes capables d'analyser des données, d'identifier des tendances et des motifs, et d'apprendre de ces informations pour prendre des décisions ou effectuer des prédictions.
Une définition
Si les notions de machine learning et d’intelligence artificielle (IA) sont de plus en plus évoquées/invoquées dans l’actualité scientifique et technique, il faut néanmoins les distinguer. L’intelligence artificielle désigne une science dont l’objectif est de faire réaliser par une machine, via des programmes informatiques, des tâches que l’Homme effectue avec son intelligence. Différents courants ont animé ce domaine, conduisant notamment aux systèmes experts et au machine learning. Ce « machine learning », dénommé également apprentissage automatique ou apprentissage statistique, est donc un sous-domaine de l’IA.
A la croisée des chemins entre informatique et mathématiques (statistiques, optimisation, traitement du signal), le machine learning désigne tout algorithme à même d’apprendre à partir de données, d’exemples. On trouve en son sein le désormais célèbre deep learning basé sur des réseaux de neurones, mais il existe de nombreux autres algorithmes issus de paradigmes différents, tels les random forests, le gradient boosting ou les SVM, sans oublier les historiques statistiques bayésiennes et modèle linéaire généralisé (GLM : Generalized Linear Model).
De nombreux champs d’application
Les applications du machine learning sont nombreuses et variées, en voici quelques illustrations :
- Prédiction : pour prédire des résultats basés sur des données historiques, par exemple la prévision des ventes d’un produit.
- Reconnaissance : pour reconnaitre des sons, des images ou des textes.
- Analyse : pour analyser de grands ensembles de données et en extraire des informations utiles.
- Automatisation : pour automatiser des tâches répétitives (ex : tri d’emails).
Différents types d’apprentissage et applications
L’apprentissage supervisé consiste à apprendre à un algorithme à produire une réponse à partir de données d’entrée. On parle de données labellisées, étiquetées. Si cette réponse, le label, est quantitative, on parle alors de modèles de régression, si elle est qualitative, de modèles de classification supervisée. Les modèles de régression permettent par exemple de prévoir des ventes, des consommations énergétiques ou des concentrations de polluants. Les modèles de classification supervisée s’appliquent quant à eux à des problèmes de reconnaissance d’images, de credit scoring ou d’identification de défauts sur une machine.
En l’absence de label, l’apprentissage non supervisé s’avère utile pour trouver des structures dans de gros volumes de données. Il n’y a pas alors de « réponse » à trouver, simplement des relations latentes entre les variables (les caractéristiques) ou les individus. L’analyse factorielle, comprenant notamment l’ACP (analyse en composantes principales), permet de déterminer des variables de synthèse, réduisant ainsi la dimension du jeu de données. Le clustering ou classification non supervisée, comprenant notamment la classification ascendante hiérarchique et les K-means, permet d’établir des typologies d’individus. La segmentation de clients en marketing est un des nombreux cas d’application de ces méthodes.
D’autres apprentissages ont émergé dernièrement, notamment l’apprentissage par renforcement et l’apprentissage par transfert. L’apprentissage par renforcement consiste à entraîner un agent à prendre des décisions en fonction de son environnement. Il repose sur un système de rétroaction, où l'agent reçoit des récompenses positives ou négatives en fonction de ses actions, et ajuste ensuite son comportement en conséquence pour maximiser sa récompense. L'apprentissage par transfert consiste à utiliser les connaissances ou les compétences acquises lors de la résolution d'une tâche pour améliorer les performances d’une autre tâche similaire ou apparentée. Des algorithmes à même de distinguer des chiens et des chats peuvent ainsi être utilisés pour la reconnaissance de défauts matériel, l’interprétation d’images médicales.
Les challenges du Machine learning
S’il permet de résoudre de nombreuses problématiques jusque-là peu accessibles, le Machine Learning soulève néanmoins un certain nombre d’interrogations, au niveau technique et même au-delà. Pour en savoir plus n'hésitez pas à consulter notre article sur le sujet.
Quelles compétences requises ?
Les Data scientists ont la responsabilité d’élaborer des algorithmes de machine learning adaptés aux problématiques métier et aux données disponibles, en puisant dans le large éventail des méthodes existant aujourd’hui.
Les Data analysts auront la capacité d’utiliser avec discernement ces modèles à l’aune de leur expertise métier.
Les Data engineers mettront en place et maintiendront les outils et infrastructures nécessaires à l’implémentation des algorithmes de machine learning.
Pour répondre au plus près à ces métiers en évolution constante, l’Ensae-Ensai Formation continue (Cepe) propose un Certificat Data scientist ainsi qu’un Certificat Data analyst.