Analyse et traitement des données manquantes

 
  2 jours       1080       Avancé    
  Prochaine session
23 et 24 juin 2025

  Prochaines sessions et informations pratiques

Objectifs de la formation
  • Visualiser un dispositif de données manquantes
  • Imputer un tableau incomplet
  • Modéliser avec des données manquantes
  • Mettre en œuvre des méthodes de traitement de données manquantes sous R.
Analyse et traitement des données manquantes
Prérequis

Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R), connaissances de base du logiciel R (formation R initiation)

Connaissances des méthodes d’analyse exploratoires des données (ACP, ACM), des méthodes de régression et de machine learning.


Public visé

Data analysts, chargés d’études statistiques, data scientists


Programme détaillé

Cette formation vise à comprendre et savoir mettre en œuvre sous R une méthodologie adaptée face à un tableau de données incomplet. Plus précisément, après avoir vu les dangers de stratégies simplistes comme la suppression d’individus ou l’imputation par la moyenne, savoir visualiser un dispositif de données manquantes puis visualiser par ACP ou ACM un tableau incomplet avant de l’imputer pour mettre en œuvre des méthodes statistiques comme la modélisation.

Typologie, visualisation et fondamentaux du traitement des données manquantes

  • Introduction à la problématique
  • Manipulation des données manquantes avec R et dplyr
  • Typologie des données manquantes (MCAR, MAR, MNAR)
  • Visualisation du dispositif de données manquantes : packages naniar, vim, ggplot, visu avec une ACM
  • Traitement des données manquantes par des méthodes d’imputation simple

Travaux pratiques avec les packages R suivants : mice, missForest et missMDA

Techniques avancées de traitement des données manquantes

  • Imputation de tableaux avec des variables qualitatives ou mixtes
  • Imputation multiple : enjeux, méthodes de génération de tableaux multiple, modélisation
  • Rapide discussion sur des méthodes spécifiques : échantillonnage, données temporelles

Travaux pratiques avec les packages R suivants : mice, Amelia, missForest et missMDA