Analyse et traitement des données manquantes
Prochaine session
23 et 24 juin 2025
Prochaines sessions et informations pratiques
- Visualiser un dispositif de données manquantes
- Imputer un tableau incomplet
- Modéliser avec des données manquantes
- Mettre en œuvre des méthodes de traitement de données manquantes sous R.
- Visualiser un dispositif de données manquantes
- Imputer un tableau incomplet
- Modéliser avec des données manquantes
- Mettre en œuvre des méthodes de traitement de données manquantes sous R.
Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R), connaissances de base du logiciel R (formation R initiation)
Connaissances des méthodes d’analyse exploratoires des données (ACP, ACM), des méthodes de régression et de machine learning.
Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R), connaissances de base du logiciel R (formation R initiation)
Connaissances des méthodes d’analyse exploratoires des données (ACP, ACM), des méthodes de régression et de machine learning.
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
Cette formation vise à comprendre et savoir mettre en œuvre sous R une méthodologie adaptée face à un tableau de données incomplet. Plus précisément, après avoir vu les dangers de stratégies simplistes comme la suppression d’individus ou l’imputation par la moyenne, savoir visualiser un dispositif de données manquantes puis visualiser par ACP ou ACM un tableau incomplet avant de l’imputer pour mettre en œuvre des méthodes statistiques comme la modélisation.
Typologie, visualisation et fondamentaux du traitement des données manquantes
- Introduction à la problématique
- Manipulation des données manquantes avec R et dplyr
- Typologie des données manquantes (MCAR, MAR, MNAR)
- Visualisation du dispositif de données manquantes : packages naniar, vim, ggplot, visu avec une ACM
- Traitement des données manquantes par des méthodes d’imputation simple
Travaux pratiques avec les packages R suivants : mice, missForest et missMDA
Techniques avancées de traitement des données manquantes
- Imputation de tableaux avec des variables qualitatives ou mixtes
- Imputation multiple : enjeux, méthodes de génération de tableaux multiple, modélisation
- Rapide discussion sur des méthodes spécifiques : échantillonnage, données temporelles
Travaux pratiques avec les packages R suivants : mice, Amelia, missForest et missMDA
Cette formation vise à comprendre et savoir mettre en œuvre sous R une méthodologie adaptée face à un tableau de données incomplet. Plus précisément, après avoir vu les dangers de stratégies simplistes comme la suppression d’individus ou l’imputation par la moyenne, savoir visualiser un dispositif de données manquantes puis visualiser par ACP ou ACM un tableau incomplet avant de l’imputer pour mettre en œuvre des méthodes statistiques comme la modélisation.
Typologie, visualisation et fondamentaux du traitement des données manquantes
- Introduction à la problématique
- Manipulation des données manquantes avec R et dplyr
- Typologie des données manquantes (MCAR, MAR, MNAR)
- Visualisation du dispositif de données manquantes : packages naniar, vim, ggplot, visu avec une ACM
- Traitement des données manquantes par des méthodes d’imputation simple
Travaux pratiques avec les packages R suivants : mice, missForest et missMDA
Techniques avancées de traitement des données manquantes
- Imputation de tableaux avec des variables qualitatives ou mixtes
- Imputation multiple : enjeux, méthodes de génération de tableaux multiple, modélisation
- Rapide discussion sur des méthodes spécifiques : échantillonnage, données temporelles