Data science & IA
Autres thèmes de formation

 

En complément des formations inter-entreprises de notre catalogue Data science & IA, nous vous proposons les thèmes de formation suivants. N'hésitez pas à nous contacter à l'adresse conseil@ensae.fr pour organiser une formation sur mesure en intra-entreprise sur l'un de ces thèmes.


Durée indicative : 3 jours


OBJECTIFS

R s’impose comme un des langages outils pour la data science. Sa rigueur et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Les objectifs sont de se familiariser avec les environnements de développement en R, acquérir les bases de la programmation en R pour traiter, visualiser et modéliser les données.

Thèmes abordés

Les bases de R

  • Manipulation des apply (apply, lapply, sapply…)
  • Les bonnes pratiques de codages
  • Principaux modules et fonctions

Préparation des données avec data.table et dplyr

  • Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel). Importation et connexion avec des bases de données
  • Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec ggplot

  • Revue des différents types de graphiques

Apprentissage et analyse statistique avec les packages adaptés

  • Revue des techniques
  • Gestion des ensembles d’apprentissage et de test
  • Evaluation des modèles

Introduction à l’utilisation de spark avec R

Durée indicative : 3 jours


OBJECTIFS

  • Se familiariser avec les environnements de développement en Python
  • Acquérir les bases de la programmation en Python pour traiter, visualiser et modéliser les données.
Thèmes abordés

Python s’impose comme un des principaux langages pour la data science. Sa simplicité d’utilisation et sa capacité à s’intégrer à des infrastructures techniques robustes en font un choix de prédilection pour les big data.

Au travers d’IPython (version pour l’analyse interactive de Python)

  • Les différents environnements de développement
  • L’utilisation des notebooks

Les bases de Python

  • Organisation d’un programme
  • Types de données simples et complexes, List

Compréhension

  • Structures de contrôle
  • Gestion des fichiers
  • Principaux modules et fonctions

Préparation des données avec pandas

  • Lecture et écriture des données depuis et vers différentes sources (fichiers textes, Excel, bases de données, etc.)
  • Filtrage, sélection, transformation, calcul, agrégation, jointure, sorties simples

La visualisation de données avec matplotlib & seaborn

  • Revue des différents types de graphiques

Apprentissage et analyse statistique avec sci-kit learn & statsmodels

  • Revue des techniques
  • Gestion des ensembles d’apprentissage et de test
  • Évaluation des modèles

Introduction à l’utilisation de Spark avec Python (pyspark)

Durée indicative : 1 jour


OBJECTIFS

  • Connaitre et comprendre les principes du MLOps
  • Identifier ses outils
  • Préparer sa mise en place dans son organisation
Thèmes abordés

Enjeux et besoins des projets data auquel répond la mise en place de processus de MLOps

  • Industrialisation de la mise en production (automatisation, agilité)
  • Cycle de vie des modèles (du lab à la prod, performance, réentraînement)

Parallèle entre le développement logiciel et le développement de projets data

Rappel des principes DevOps et leur traduction pour les projets de data science

Revue détaillée des étapes d’un processus type de MLOps

  • Objectifs de chaque étape
  • Impacts techniques
  • Gouvernance

Panorama des solutions de MLOps

  • En open source (ex. : mlFlow, kubeflow)
  • Dans les logiciels propriétaires (ex. : Dataiku DSS, neptune.ai)
  • Chez les cloud providers (AWS, Azure, GCP)
  • Pour Python, pour R
  • Pour des modèles de Machine learning et de Deep learning

Mise en place de processus MLOps

  • Revue d’une démarche type
  • Etude de cas en atelier (informations collectées préalablement auprès des participants)

Durée indicative : 3 jours


OBJECTIFS

Acquérir les notions théoriques et pratiques nécessaires à la mise en œuvre des techniques d’acquisition automatisées de données sur le web.

Thèmes abordés

La formation se concentre sur les méthodes d’extraction de données structurées ou semi-structurées depuis une page web (“web scraping”) ou une interface de programmation. Chaque méthode fait l’objet d’une présentation théorique et d’exemples pratiques de programmation. La formation nécessite une connaissance de base en programmation.

Les droits d’utilisation des données disponibles sur le web

Présentation des concepts de licences sur les données, du mouvement OpenData et des principales licences.

Récupérer des données fournies par une interface de programmation (API)

Définition d’une API, requêtage, exemples pratiques avec Python et R.

Récupérer des données d’un site web

Définition du web scraping, parcours de pages web, exemples pratiques avec Python et R, utilisation des Apis Web (Google, Twitter…)

Exemples d’outils pour faciliter le web scraping

Outils pour extraire depuis des sites statiques ou sites fortement dynamiques (ajax): Scrapy, PhantomJS, etc.

Problèmes avancés d’extractions de données

Ordonnancement, proxy, authentification, erreurs HTTP.

Durée indicative : 1 jour


OBJECTIFS

Cette formation permet de comprendre et savoir mettre en œuvre des techniques statistiques permettant de regrouper des individus en classes homogènes, ce que l’on nomme communément classification non supervisée ou clustering.

Thèmes abordés

Avant tout travail de modélisation, on se doit de décrire les données dont on dispose. Malheureusement le statisticien se retrouve fréquemment face à des bases de données massives, tant en termes de nombre d’individus qu’en termes de nombre de variables. Les techniques d’analyse de données « à la française » constituent une solution adéquate pour décrire des ensembles de grande dimension.

Parmi ces méthodes, on trouve notamment l’analyse en composantes principales (ACP). Il s’agit de l’aînée des méthodes d’analyse factorielle qui s’appuient sur la réduction de rang découlant des travaux de décomposition matricielle d’Eckart et Young. L’ACP est utilisée pour des variables quantitatives ; pour des variables qualitatives, on utilisera l’Analyse Factorielle des Correspondances (AFC) ou l’Analyse des Correspondances Multiples (ACM).

Les méthodes de clustering également désignées en français sous le nom méthodes de classification non supervisée ou automatique)permettent de regrouper des individus au sein de classes homogènes sur la base d’informations communes.

Réduction de dimension

Analyse en composantes principales Analyse des correspondances multiples

Généralités sur classification non supervisée

Concept de classification non supervisée (vs supervisée) Métriques : dissemblance, dissimilarité, distance et autres Inerties inter et intra-classes

Méthodes hiérarchiques

Classification Ascendante Hiérarchique Classification Descendante Hiérarchique

Méthodes de partitionnement

Centres mobiles K-means Nuées dynamiques Formes fortes

Méthode basée sur la densité (dbscan)

Les cas pratiques seront traités sous R.

Durée indicative : 2 jours


OBJECTIFS

Faire le lien entre les méthodes de Data Mining usuelles et les méthodes issues de la recherche récente en apprentissage statistique, comme les méthodes à noyaux (SVM et SVR entre autres) et les méthodes d’agrégation (boosting, bagging, forêts aléatoires).

Savoir mettre en œuvre ces méthodes sur des cas pratiques et juger de leur pertinence en fonction de l’objectif recherché.

Thèmes abordés

La formation décrit les principales méthodes de data mining issues de la recherche actuelle en apprentissage statistique, cible leurs difficultés et leurs avantages et évalue leurs performances.

Des applications sur des jeux de données simulées et réelles seront mises en œuvre à l’aide du logiciel libre R et de Sas.

Statistique, apprentissage et data mining

  • Définitions, positionnement
  • Principales applications
  • Panorama des méthodes et de l’offre logicielle
  • Choix d’une méthode et ajustement des paramètres

Méthodes à noyaux, SVM et SVR

  • Support Vector Machines pour la discrimination binaire ou multi-classes
  • Support Vector Regression pour la régression
  • Ajustement des paramètres

Méthodes d’agrégation et bootstrap

  • Agrégation de règles de prédiction : intérêt
  • Principe du bootstrap
  • Méthodes de boosting (Adaboost et logitboost)
  • Méthodes de bagging, forêts aléatoires

Durée indicative : 4 jours (2+2)


OBJECTIFS

Comprendre et analyser les enjeux, les méthodes et les conséquences opérationnelles de l’utilisation du Big Data en actuariat.

Thèmes abordés

La Data-Science au service de la souscription et du ciblage des clients

  • Profilage pour la souscription en ligne
  • Méthodes de conception de questionnaires synthétiques pour la souscription en ligne
  • Lutte contre la fraude et l’anti-sélection
  • Rétention de clients : anticipation des résiliations, risque de rachat
  • Études de cas

Tarification et provisionnement

  • Confrontation entre les méthodes usuelles (modèles linéaires généralisés) et les méthodes issues du machine learning
  • Combinaisons éventuelles entre nouvelles méthodes et méthodes traditionnelles
  • Indicateurs de risque et suivi du risque
  • Mise en œuvre sur des exemples

Nouvelles données

  • Open data : les nouvelles sources de données
  • Les utilisations possibles
  • Nouvelles incertitudes et nouveaux risques éventuels liés à leur utilisation

Les risques à temps de développement long

  • Stabilité et fiabilité des données utilisées
  • Prise en compte d’évolutions temporelles
  • Méthodes de prévision
  • Illustrations

Durée indicative : 1 jour


OBJECTIFS

Acquérir les connaissances juridiques nécessaires à la mise en place, l’utilisation, la conception de « solutions BIG DATA » dans la sphère de l’actuariat au regard des impératifs la loi n°78-17 dite « Informatique et libertés » du 6 janvier 1978 modifiée et du droit de la propriété intellectuelle.

Thèmes abordés

La formation présente l’ensemble des contraintes juridiques applicables à la manipulation de données à l’aide de solution dite de « Big Data » dans le domaine de l’actuariat. Sera ainsi traitée la question de l’impact du droit sur les traitements de données non structurées provenant de diverses sources mise au service de l’analyse prédictive de l’actuaire. Par des mises en situation (cas pratiques, FAQ), il s’agira de définir les bonnes pratiques au-delà de l’identification des sources de risques juridiques et de responsabilité.

Introduction

Grâce à l’avènement du Big Data, les algorithmes utilisés dans le domaine de l’analyse prédictive conduisent les actuaires à manipuler toujours plus de données. Deux questions essentielles se posent pour l’actuaire : - Ai-je le droit de manipuler ce type de données et si oui selon quelles contraintes ? - Quelle propriété pour cette nouvelle génération d’algorithme, pour les analyses effectuées et pour les données collectées ?

Actuariat – Big Data et protection de la vie privée

La mise en œuvre d’analyses prédictives alimentées par des flux de données provenant de solution Big Data impose à l’actuaire de s’assurer de la légalité de la provenance de ces données et des contraintes imposées. Il convient dès lors de s’assurer du respect de la loi n°78-17 du 6 janvier 1978 modifiée depuis le moment de la collecte jusqu’à la destruction des données. Cette appréhension de la légalité des traitements et des contraintes légales applicable suppose de maîtriser d’une part les définitions (données à caractère personnel, responsable de traitement, soustraitant, destinataires des données, flux transfrontière etc.) et, d’autre part les obligations imposées par le législateur.

Actuariat – Big Data et propriété intellectuelle

Les solutions dites de Big Data utilisées dans le domaine de l’actuariat posent également des questions liées au droit de la propriété intellectuelle. Dans l’attente de la création d’un « droit des algorithmes », l’actuaire professionnel est ainsi confronté d’un côté à la nécessité de protection et de valorisation des solutions d’analyse prédictive utilisées et/ou développées par ses soins et de l’autre à l’obligation de s’assurer du respect des droits des producteurs de bases de données lors des opérations de collectes de données effectuées.