Classification supervisée : analyse discriminante, régression logistique et arbres avec R
Prochaine session
8, 9, 10 septembre 2025
Prochaines sessions et informations pratiques
- Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
- Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
- Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
- Connaître et savoir mettre en œuvre les méthodes paramétriques de référence permettant de répondre au problème de discrimination (également appelé classification supervisée) : analyse discriminante, régression logistique.
- Connaître et savoir mettre en œuvre les méthodes d’arbres (CART et random forest) dans le cadre de la classification supervisée.
- Être capable de définir et de calculer des critères permettant de comparer les performances de modèles.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances de base du logiciel R (formation R initiation).
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec R).
- Connaissances de base en statistique inférentielle (formation Statistique inférentielle : estimation ponctuelle, intervalle de confiance et test statistique).
- Connaissances de base du logiciel R (formation R initiation).
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.
Présentation du problème de la classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
- Applications sur cas pratiques
Régression logistique
- Présentation du modèle
- Estimation des paramètres et tests
- Sélection de modèle
- Introduction aux méthodes pénalisées (ridge et lasso)
- Applications sur cas pratiques
Arbres
- Méthodologie CART (arbres de décision)
- Agrégation (bagging) d’arbres : forêts aléatoires
- Applications sur cas pratiques
La formation traite de modèles adaptés à la prévision de phénomènes qualitatifs en fonction de variables quantitatives et qualitatives.
Présentation du problème de la classification supervisée
- Cadre statistique
- Critères de performance
- Approche scoring
Analyse discriminante linéaire
- Approche descriptive
- Approche prédictive
- Analyse discriminante quadratique
- Applications sur cas pratiques
Régression logistique
- Présentation du modèle
- Estimation des paramètres et tests
- Sélection de modèle
- Introduction aux méthodes pénalisées (ridge et lasso)
- Applications sur cas pratiques
Arbres
- Méthodologie CART (arbres de décision)
- Agrégation (bagging) d’arbres : forêts aléatoires
- Applications sur cas pratiques
Teaser : principaux packages R utilisés en classification supervisée
Voici quelques-uns des principaux packages R utilisés pour réaliser de la classification supervisée (analyse discrimante, régressions logistiques arbres…) :
MASS
: Le package MASS propose des méthodes pour l’analyse discriminante linéaire et quadratique. Il comprend les fonctions lda() et qda() pour effectuer respectivement l’analyse discriminante linéaire et quadratique.nnet
: Le package nnet permet de construire des réseaux de neurones artificiels pour la classification supervisée. La fonction nnet() permet de créer un modèle de réseau de neurones en spécifiant le nombre de couches et les fonctions d’activation.glmnet
: Le package glmnet est utilisé pour réaliser des régressions logistiques pénalisées et des régressions élastiques net. Il fournit une implémentation efficace des modèles de régression avec régularisation.randomForest
: Le package randomForest est utilisé pour construire des modèles de forêts aléatoires, une technique ensembliste basée sur les arbres de décision. Il offre une grande flexibilité et une grande précision pour la classification.rpart
: Le package rpart permet de construire des arbres de décision pour la classification supervisée. La fonction rpart() crée un arbre de décision en utilisant l’algorithme de partitionnement récursif.caret
: Le package caret (Classification And REgression Training) fournit une interface unifiée pour l’entraînement et l’évaluation de nombreux modèles de classification supervisée. Il offre une grande variété de méthodes et d’outils pour la sélection de modèles, la validation croisée et la préparation des données.e1071
: Le package e1071 propose plusieurs méthodes pour la classification supervisée, y compris les machines à vecteurs de support (SVM) et les classificateurs naïfs de Bayes. Il offre également des fonctionnalités pour le prétraitement des données et la sélection de variables.
Ces packages sont souvent utilisés en combinaison avec d’autres packages R pour réaliser des tâches spécifiques d’analyse des données. Votre formateur vous aidera à acquérir de la pratique sur l’ensemble de ces outils.
Teaser : principaux packages R utilisés en classification supervisée
Voici quelques-uns des principaux packages R utilisés pour réaliser de la classification supervisée (analyse discrimante, régressions logistiques arbres…) :
MASS
: Le package MASS propose des méthodes pour l’analyse discriminante linéaire et quadratique. Il comprend les fonctions lda() et qda() pour effectuer respectivement l’analyse discriminante linéaire et quadratique.nnet
: Le package nnet permet de construire des réseaux de neurones artificiels pour la classification supervisée. La fonction nnet() permet de créer un modèle de réseau de neurones en spécifiant le nombre de couches et les fonctions d’activation.glmnet
: Le package glmnet est utilisé pour réaliser des régressions logistiques pénalisées et des régressions élastiques net. Il fournit une implémentation efficace des modèles de régression avec régularisation.randomForest
: Le package randomForest est utilisé pour construire des modèles de forêts aléatoires, une technique ensembliste basée sur les arbres de décision. Il offre une grande flexibilité et une grande précision pour la classification.rpart
: Le package rpart permet de construire des arbres de décision pour la classification supervisée. La fonction rpart() crée un arbre de décision en utilisant l’algorithme de partitionnement récursif.caret
: Le package caret (Classification And REgression Training) fournit une interface unifiée pour l’entraînement et l’évaluation de nombreux modèles de classification supervisée. Il offre une grande variété de méthodes et d’outils pour la sélection de modèles, la validation croisée et la préparation des données.e1071
: Le package e1071 propose plusieurs méthodes pour la classification supervisée, y compris les machines à vecteurs de support (SVM) et les classificateurs naïfs de Bayes. Il offre également des fonctionnalités pour le prétraitement des données et la sélection de variables.
Ces packages sont souvent utilisés en combinaison avec d’autres packages R pour réaliser des tâches spécifiques d’analyse des données. Votre formateur vous aidera à acquérir de la pratique sur l’ensemble de ces outils.