Data science & IA
Autres thèmes de formation
En complément des formations inter-entreprises de notre catalogue Data science & IA, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.
Durée indicative : 3 jours
R s’impose comme un des langages outils pour la data science. Sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.
Les objectifs sont de se familiariser avec les environnements de développement en R, acquérir les bases de la programmation en R pour traiter, visualiser et modéliser les données.
Les bases de R
- Manipulation des apply (apply, lapply, sapply…)
- Les bonnes pratiques de codages
- Principaux modules et fonctions
Préparation des données avec data.table et dplyr
- Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel). Importation et connexion avec des bases de données
- Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples
La visualisation de données avec ggplot
- Revue des différents types de graphiques
Apprentissage et analyse statistique avec les packages adaptés
- Revue des techniques
- Gestion des ensembles d’apprentissage et de test
- Evaluation des modèles
Introduction à l’utilisation de spark avec R
Durée indicative : 3 jours
- Se familiariser avec les environnements de développement en Python
- Acquérir les bases de la programmation en Python pour traiter, visualiser et modéliser les données.
Python s’impose comme un des principaux langages pour la data science. Sa simplicité d’utilisation et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.
Au travers d’IPython (version pour l’analyse interactive de Python)
- Les différents environnements de développement
- L’utilisation des notebooks
Les bases de Python
- Organisation d’un programme
- Types de données simples et complexes, List
Compréhension
- Structures de contrôle
- Gestion des fichiers
- Principaux modules et fonctions
Préparation des données avec pandas
- Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel, bases de données, etc.)
- Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples
La visualisation de données avec matplotlib & seaborn
- Revue des différents types de graphiques
Apprentissage et analyse statistique avec sci-kit learn & statsmodels
- Revue des techniques
- Gestion des ensembles d’apprentissage et de test
- Évaluation des modèles
Introduction à l’utilisation de Spark avec Python (pyspark)
Durée indicative : 1 jour
- Connaitre et comprendre les principes du MLOps
- Identifier ses outils
- Préparer sa mise en place dans son organisation
Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps
- Industrialisation de la mise en production (automatisation, agilité)
- Cycle de vie des modèles (du lab à la prod, performance, réentraînement)
Parallèle entre le développement logiciel et le développement de projets data
Rappel des principes DevOps et leur traduction pour les projets de data science
Revue détaillée des étapes d’un processus type de MLOps
- Objectifs de chaque étape
- Impacts techniques
- Gouvernance
Panorama des solutions de MLOps
- En open source (ex. : mlFlow, kubeflow)
- Dans les logiciels propriétaires (ex. : Dataiku DSS, neptune.ai)
- Chez les cloud providers (AWS, Azure, GCP)
- Pour Python, pour R
- Pour des modèles de Machine learning et de Deep learning
Mise en place de processus MLOps
- Revue d’une démarche type
- Etude de cas en atelier (informations collectées préalablement auprès des participants)
Durée indicative : 1 jour
Cette formation permet de comprendre et savoir mettre en œuvre des techniques statistiques permettant de regrouper des individus en classes homogènes, ce que l’on nomme communément classification non supervisée ou clustering.
Avant tout travail de modélisation, on se doit de décrire les données dont on dispose. Malheureusement le statisticien se retrouve fréquemment face à des bases de données massives, tant en termes de nombre d’individus qu’en termes de nombre de variables. Les techniques d’analyse de données « à la française » constituent une solution adéquate pour décrire des ensembles de grande dimension.
Parmi ces méthodes, on trouve notamment l’analyse en composantes principales (ACP). Il s’agit de l’aînée des méthodes d’analyse factorielle qui s’appuient sur la réduction de rang découlant des travaux de décomposition matricielle d’Eckart et Young. L’ACP est utilisée pour des variables quantitatives ; pour des variables qualitatives, on utilisera l’Analyse Factorielle des Correspondances (AFC) ou l’Analyse des Correspondances Multiples (ACM).
Les méthodes de clustering également désignées en français sous le nom méthodes de classification non supervisée ou automatique)permettent de regrouper des individus au sein de classes homogènes sur la base d’informations communes.
Réduction de dimension
Analyse en composantes principales Analyse des correspondances multiples
Généralités sur classification non supervisée
Concept de classification non supervisée (vs supervisée) Métriques : dissemblance, dissimilarité, distance et autres Inerties inter et intra-classes
Méthodes hiérarchiques
Classification Ascendante Hiérarchique Classification Descendante Hiérarchique
Méthodes de partitionnement
Centres mobiles K-means Nuées dynamiques Formes fortes
Méthode basée sur la densité (dbscan)
Les cas pratiques seront traités sous R.
Durée indicative : 2 jours
Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).
Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.
La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.
Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.
Statistique, apprentissage et data mining
- Définitions, positionnement
- Principales applications
- Panorama des méthodes et de l’offre logicielle
- Choix d’une méthode et ajustement des paramètres
Méthodes à noyaux, SVM et SVR
- Support Vector Machines pour la discrimination binaire ou multi-classes
- Support Vector Regression pour la régression
- Ajustement des paramètres
Méthodes d’agrégation et bootstrap
- Agrégation de règles de prédiction : intérêt
- Principe du bootstrap
- Méthodes de boosting (Adaboost et logitboost)
- Méthodes de bagging, forêts aléatoires
Durée indicative : 4 jours (2+2)
Comprendre et analyser les enjeux, les méthodes et les conséquences opérationnelles de l’utilisation du Big Data en actuariat.
La Data-Science au service de la souscription et du ciblage des clients
- Profilage pour la souscription en ligne
- Méthodes de conception de questionnaires synthétiques pour la souscription en ligne
- Lutte contre la fraude et l’anti-sélection
- Rétention de clients : anticipation des résiliations, risque de rachat
- Études de cas
Tarification et provisionnement
- Confrontation entre les méthodes usuelles (modèles linéaires généralisés) et les méthodes issues du machine learning
- Combinaisons éventuelles entre nouvelles méthodes et méthodes traditionnelles
- Indicateurs de risque et suivi du risque
- Mise en œuvre sur des exemples
Nouvelles données
- Open data : les nouvelles sources de données
- Les utilisations possibles
- Nouvelles incertitudes et nouveaux risques éventuels liés à leur utilisation
Les risques à temps de développement long
- Stabilité et fiabilité des données utilisées
- Prise en compte d’évolutions temporelles
- Méthodes de prévision
- Illustrations
Durée indicative : 1 jour
Acquérir les connaissances juridiques nécessaires à la mise en place, l’utilisation, la conception de « solutions BIG DATA » dans la sphère de l’actuariat au regard des impératifs la loi n°78-17 dite « Informatique et libertés » du 6 janvier 1978 modifiée et du droit de la propriété intellectuelle.
La formation présente l’ensemble des contraintes juridiques applicables à la manipulation de données à l’aide de solution dite de « Big Data » dans le domaine de l’actuariat. Sera ainsi traitée la question de l’impact du droit sur les traitements de données non structurées provenant de diverses sources mise au service de l’analyse prédictive de l’actuaire. Par des mises en situation (cas pratiques, FAQ), il s’agira de définir les bonnes pratiques au-delà de l’identification des sources de risques juridiques et de responsabilité.
Introduction
Grâce à l’avènement du Big Data, les algorithmes utilisés dans le domaine de l’analyse prédictive conduisent les actuaires à manipuler toujours plus de données. Deux questions essentielles se posent pour l’actuaire : - Ai-je le droit de manipuler ce type de données et si oui selon quelles contraintes ? - Quelle propriété pour cette nouvelle génération d’algorithme, pour les analyses effectuées et pour les données collectées ?
Actuariat – Big Data et protection de la vie privée
La mise en œuvre d’analyses prédictives alimentées par des flux de données provenant de solution Big Data impose à l’actuaire de s’assurer de la légalité de la provenance de ces données et des contraintes imposées. Il convient dès lors de s’assurer du respect de la loi n°78-17 du 6 janvier 1978 modifiée depuis le moment de la collecte jusqu’à la destruction des données. Cette appréhension de la légalité des traitements et des contraintes légales applicable suppose de maîtriser d’une part les définitions (données à caractère personnel, responsable de traitement, soustraitant, destinataires des données, flux transfrontière etc.) et, d’autre part les obligations imposées par le législateur.
Actuariat – Big Data et propriété intellectuelle
Les solutions dites de Big Data utilisées dans le domaine de l’actuariat posent également des questions liées au droit de la propriété intellectuelle. Dans l’attente de la création d’un « droit des algorithmes », l’actuaire professionnel est ainsi confronté d’un côté à la nécessité de protection et de valorisation des solutions d’analyse prédictive utilisées et/ou développées par ses soins et de l’autre à l’obligation de s’assurer du respect des droits des producteurs de bases de données lors des opérations de collectes de données effectuées.