Data science & IA
Autres thèmes de formation

En complément des formations inter-entreprises de notre catalogue Data science & IA, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.

R pour la data science

Durée indicative : 3 jours

OBJECTIFS

R s’impose comme un des langages outils pour la data science. Sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Les objectifs sont de se familiariser avec les environnements de développement en R, acquérir les bases de la programmation en R pour traiter, visualiser et modéliser les données.

Thèmes abordés

Les bases de R

Manipulation des apply (apply, lapply, sapply…)
Les bonnes pratiques de codages
Principaux modules et fonctions

Préparation des données avec data.table et dplyr

Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel). Importation et connexion avec des bases de données
Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec ggplot

Revue des différents types de graphiques

Apprentissage et analyse statistique avec les packages adaptés

Revue des techniques
Gestion des ensembles d’apprentissage et de test
Evaluation des modèles

Introduction à l’utilisation de spark avec R

Python pour la data science

Durée indicative : 3 jours

OBJECTIFS

Se familiariser avec les environnements de développement en Python
Acquérir les bases de la programmation en Python pour traiter, visualiser et modéliser les données.

Thèmes abordés

Python s’impose comme un des principaux langages pour la data science. Sa simplicité d’utilisation et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Au travers d’IPython (version pour l’analyse interactive de Python) (3h)

Les différents environnements de développement
L’utilisation des notebooks

Les bases de Python (3h)

Organisation d’un programme
Types de données simples et complexes, List

Compréhension (3h)

Structures de contrôle
Gestion des fichiers
Principaux modules et fonctions

Préparation des données avec pandas (3h)

Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel, bases de données, etc.)
Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec matplotlib & seaborn (2h)

Revue des différents types de graphiques

Apprentissage et analyse statistique avec sci-kit learn & statsmodels (3h)

Revue des techniques
Gestion des ensembles d’apprentissage et de test
Évaluation des modèles

Introduction à l’utilisation de Spark avec Python (pyspark) (1h)

MLOps : panorama et mise en place

Durée indicative : 1 jour

OBJECTIFS

Connaitre et comprendre les principes du MLOps
Identifier ses outils
Préparer sa mise en place dans son organisation

Thèmes abordés

Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps (1h)

Industrialisation de la mise en production (automatisation, agilité)
Cycle de vie des modèles (du lab à la prod, performance, réentraînement)

Parallèle entre le développement logiciel et le développement de projets data (1h)

Rappel des principes DevOps et leur traduction pour les projets de data science (1h)

Revue détaillée des étapes d’un processus type de MLOps (1h)

Objectifs de chaque étape
Impacts techniques
Gouvernance

Panorama des solutions de MLOps (1h)

En open source (ex. : mlFlow, kubeflow)
Dans les logiciels propriétaires (ex. : Dataiku DSS, neptune.ai)
Chez les cloud providers (AWS, Azure, GCP)
Pour Python, pour R
Pour des modèles de Machine learning et de Deep learning

Mise en place de processus MLOps (1h)

Revue d’une démarche type
Etude de cas en atelier (informations collectées préalablement auprès des participants)

Sécurisation des données

Durée indicative : 1 jour

OBJECTIFS

Acquérir une vision globale des problèmes de sécurité des données en général et des contextes big data en particulier
Comprendre l’étendue de la menace, les enjeux et les risques associés
Disposer des bases nécessaires pour mettre en place une architecture de sécurité et comprendre les techniques de protection des données dans un contexte big data.

Thèmes abordés

Sécurité des données et transformation digitale (2h)

Notion de sécurité et d’analyse de risque
Cybersécurité
Surface d’attaque des entreprises et paysage de la menace
Contexte technique
Exemples et analyse d’attaques

Spécificités des environnements big-data (2h)

Agrégation de données : impacts techniques et contraintes particulières
Particularités des centres de données Big data
Risques induits par l’hyper-convergence et l’asymétrie
Droits d’accès, rôle
Sûreté et confidentialité des informations
GDPR « General Data Protection Regulation»

Notions de cyberprotection (2h)

Protection
Détection
Remédiation
Chaine de dislocation (kill chain)

Web-Scraping : méthodes d'extraction de données sur le web

Durée indicative : 3 jours

OBJECTIFS

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des techniques d’acquisition automatisées de données sur le web.

Thèmes abordés

La formation se concentre sur les méthodes d’extraction de données structurées ou semi-structurées depuis une page web (“web scraping”) ou une interface de programmation. Chaque méthode fait l’objet d’une présentation théorique et d’exemples pratiques de programmation. La formation nécessite une connaissance de base en programmation.

Les droits d’utilisation des données disponibles sur le web (3h)

Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.

Récupérer des données fournies par une interface de programmation (API) (3h)

Définition d’une API, requêtage, exemples pratiques avec Python et R.

Récupérer des données d’un site web (3h)

Définition du web scraping, parcours de pages web, exemples pratiques avec Python et R, utilisation des Apis Web (Google, Twitter…)

Exemples d’outils pour faciliter le web scraping (1h)

Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Scrapy, PhantomJS, etc.

Problèmes avancés d’extractions de données (2h)

Ordonnancement, proxy, authentification, erreurs HTTP.

Réduction de dimension et classification non supervisée (Clustering)

Durée indicative : 1 jour

OBJECTIFS

Cette formation permet de comprendre et savoir mettre en œuvre des techniques statistiques permettant de regrouper des individus en classes homogènes, ce que l’on nomme communément classification non supervisée ou clustering.

Thèmes abordés

Avant tout travail de modélisation, on se doit de décrire les données dont on dispose. Malheureusement le statisticien se retrouve fréquemment face à des bases de données massives, tant en termes de nombre d’individus qu’en termes de nombre de variables. Les techniques d’analyse de données « à la française » constituent une solution adéquate pour décrire des ensembles de grande dimension.

Parmi ces méthodes, on trouve notamment l’analyse en composantes principales (ACP). Il s’agit de l’aînée des méthodes d’analyse factorielle qui s’appuient sur la réduction de rang découlant des travaux de décomposition matricielle d’Eckart et Young. L’ACP est utilisée pour des variables quantitatives ; pour des variables qualitatives, on utilisera l’Analyse Factorielle des Correspondances (AFC) ou l’Analyse des Correspondances Multiples (ACM).

Les méthodes de clustering également désignées en français sous le nom méthodes de classification non supervisée ou automatique)permettent de regrouper des individus au sein de classes homogènes sur la base d’informations communes.

Réduction de dimension

Analyse en composantes principales Analyse des correspondances multiples

Généralités sur classification non supervisée

Concept de classification non supervisée (vs supervisée) Métriques : dissemblance, dissimilarité, distance et autres Inerties inter et intra-classes

Méthodes hiérarchiques

Classification Ascendante Hiérarchique Classification Descendante Hiérarchique

Méthodes de partitionnement

Centres mobiles K-means Nuées dynamiques Formes fortes

Méthode basée sur la densité (dbscan)

Les cas pratiques seront traités sous R.

Méthodes avancées de Data Mining

Durée indicative : 2 jours

OBJECTIFS

Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).

Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.

Thèmes abordés

La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.

Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.

Statistique, apprentissage et data mining

Définitions, positionnement
Principales applications
Panorama des méthodes et de l’offre logicielle
Choix d’une méthode et ajustement des paramètres

Méthodes à noyaux, SVM et SVR

Support Vector Machines pour la discrimination binaire ou multi-classes
Support Vector Regression pour la régression
Ajustement des paramètres

Méthodes d’agrégation et bootstrap

Agrégation de règles de prédiction : intérêt
Principe du bootstrap
Méthodes de boosting (Adaboost et logitboost)
Méthodes de bagging, forêts aléatoires

Introduction aux enjeux du Big Data en assurance

Durée indicative : 4 jours (2+2)

OBJECTIFS

Comprendre et analyser les enjeux, les méthodes et les conséquences opérationnelles de l’utilisation du Big Data en actuariat.

Thèmes abordés

La Data-Science au service de la souscription et du ciblage des clients

Profilage pour la souscription en ligne
Méthodes de conception de questionnaires synthétiques pour la souscription en ligne
Lutte contre la fraude et l’anti-sélection
Rétention de clients : anticipation des résiliations, risque de rachat
Études de cas

Tarification et provisionnement

Confrontation entre les méthodes usuelles (modèles linéaires généralisés) et les méthodes issues du machine learning
Combinaisons éventuelles entre nouvelles méthodes et méthodes traditionnelles
Indicateurs de risque et suivi du risque
Mise en œuvre sur des exemples

Nouvelles données

Open data : les nouvelles sources de données
Les utilisations possibles
Nouvelles incertitudes et nouveaux risques éventuels liés à leur utilisation

Les risques à temps de développement long

Stabilité et fiabilité des données utilisées
Prise en compte d’évolutions temporelles
Méthodes de prévision
Illustrations

Actuariat et Big Data : quels enjeux juridiques ?

Durée indicative : 1 jour

OBJECTIFS

Acquérir les connaissances juridiques nécessaires à la mise en place, l’utilisation, la conception de « solutions BIG DATA » dans la sphère de l’actuariat au regard des impératifs la loi n°78-17 dite « Informatique et libertés » du 6 janvier 1978 modifiée et du droit de la propriété intellectuelle.

Thèmes abordés

La formation présente l’ensemble des contraintes juridiques applicables à la manipulation de données à l’aide de solution dite de « Big Data » dans le domaine de l’actuariat. Sera ainsi traitée la question de l’impact du droit sur les traitements de données non structurées provenant de diverses sources mise au service de l’analyse prédictive de l’actuaire. Par des mises en situation (cas pratiques, FAQ), il s’agira de définir les bonnes pratiques au-delà de l’identification des sources de risques juridiques et de responsabilité.

Introduction

Grâce à l’avènement du Big Data, les algorithmes utilisés dans le domaine de l’analyse prédictive conduisent les actuaires à manipuler toujours plus de données. Deux questions essentielles se posent pour l’actuaire : - Ai-je le droit de manipuler ce type de données et si oui selon quelles contraintes ? - Quelle propriété pour cette nouvelle génération d’algorithme, pour les analyses effectuées et pour les données collectées ?

Actuariat – Big Data et protection de la vie privée

La mise en œuvre d’analyses prédictives alimentées par des flux de données provenant de solution Big Data impose à l’actuaire de s’assurer de la légalité de la provenance de ces données et des contraintes imposées. Il convient dès lors de s’assurer du respect de la loi n°78-17 du 6 janvier 1978 modifiée depuis le moment de la collecte jusqu’à la destruction des données. Cette appréhension de la légalité des traitements et des contraintes légales applicable suppose de maîtriser d’une part les définitions (données à caractère personnel, responsable de traitement, soustraitant, destinataires des données, flux transfrontière etc.) et, d’autre part les obligations imposées par le législateur.

Actuariat – Big Data et propriété intellectuelle

Les solutions dites de Big Data utilisées dans le domaine de l’actuariat posent également des questions liées au droit de la propriété intellectuelle. Dans l’attente de la création d’un « droit des algorithmes », l’actuaire professionnel est ainsi confronté d’un côté à la nécessité de protection et de valorisation des solutions d’analyse prédictive utilisées et/ou développées par ses soins et de l’autre à l’obligation de s’assurer du respect des droits des producteurs de bases de données lors des opérations de collectes de données effectuées.

Data science & IAAutres thèmes de formation

Les bases de R

Préparation des données avec data.table et dplyr

La visualisation de données avec ggplot

Apprentissage et analyse statistique avec les packages adaptés

Introduction à l’utilisation de spark avec R

Au travers d’IPython (version pour l’analyse interactive de Python) (3h)

Les bases de Python (3h)

Compréhension (3h)

Préparation des données avec pandas (3h)

La visualisation de données avec matplotlib & seaborn (2h)

Apprentissage et analyse statistique avec sci-kit learn & statsmodels (3h)

Introduction à l’utilisation de Spark avec Python (pyspark) (1h)

Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps (1h)

Parallèle entre le développement logiciel et le développement de projets data (1h)

Rappel des principes DevOps et leur traduction pour les projets de data science (1h)

Revue détaillée des étapes d’un processus type de MLOps (1h)

Panorama des solutions de MLOps (1h)

Mise en place de processus MLOps (1h)

Sécurité des données et transformation digitale (2h)

Spécificités des environnements big-data (2h)

Notions de cyberprotection (2h)

Les droits d’utilisation des données disponibles sur le web (3h)

Récupérer des données fournies par une interface de programmation (API) (3h)

Récupérer des données d’un site web (3h)

Exemples d’outils pour faciliter le web scraping (1h)

Problèmes avancés d’extractions de données (2h)

Réduction de dimension

Généralités sur classification non supervisée

Méthodes hiérarchiques

Méthodes de partitionnement

Méthode basée sur la densité (dbscan)

Statistique, apprentissage et data mining

Méthodes à noyaux, SVM et SVR

Méthodes d’agrégation et bootstrap

La Data-Science au service de la souscription et du ciblage des clients

Tarification et provisionnement

Nouvelles données

Les risques à temps de développement long

Introduction

Actuariat – Big Data et protection de la vie privée

Actuariat – Big Data et propriété intellectuelle

Data science & IA
Autres thèmes de formation