Analyse exploratoire des données avec SAS
Prochaines sessions et informations pratiques
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Comprendre les enjeux de la réduction de dimension sur les individus (classification non supervisée, clustering) et sur les variables (analyse factorielle, dimension reduction)
- Comprendre et savoir mettre en œuvre les principales méthodes d’analyse factorielle, sur les variables quantitatives (ACP) et qualitatives (ACM).
- Comprendre et savoir mettre en œuvre les principales méthodes de clustering : CAH & K-means.
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec SAS)
- Connaissances de base du logiciel SAS (formation SAS initiation)
- Notions de calcul matriciel souhaitables
- Connaissances de base en statistiques descriptives (formation Statistiques descriptives avec SAS)
- Connaissances de base du logiciel SAS (formation SAS initiation)
- Notions de calcul matriciel souhaitables
Data analysts, chargés d’études statistiques, data scientists
Data analysts, chargés d’études statistiques, data scientists
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Les méthodes factorielles (ACP, AFC, ACM) permettent au travers de techniques de visualisation, de résumer, structurer et synthétiser les variables de tableaux de données volumineux. Les méthodes de classification non supervisée, ou clustering, permettent, en séparant les individus d’une population en groupes homogènes, de créer une typologie.
Analyse en composantes principales ACP
- Inerties
- Recherche des axes principaux
- Composantes principales
- Analyse du nuage des individus
- Analyse du nuage des variables
- Interprétation des résultats.
Analyse factorielle des correspondances AFC
- Nuages des profils-lignes et des profils-colonnes, distance du khi-deux
- Analyse des nuages des profils
- Liens entre les analyses lignes et colonnes
- Interprétation des résultats.
Analyse des correspondances multiples ACM
- Analyse des correspondances sur le tableau disjonctif complet
- Propriétés de l’ACM
- Analyse du tableau de Burt
Classification non supervisée
- Classification ascendante hiérarchique (CAH) : principe, stratégies d’agrégation, aides à l’interprétation
- Méthodes de partitionnement : K-means, PAM
- Classification mixte
Teaser : les principales procédures SAS utilisées en analyse exploratoire des données
Le logiciel SAS propose plusieurs procédures pour effectuer des analyses multivariées, notamment l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM) et la classification non supervisée. Voici les principales procédures SAS utilisées pour ces analyses :
Procédure FACTOR : La procédure FACTOR est utilisée pour effectuer une analyse factorielle, y compris l’analyse en composantes principales (ACP). Elle permet d’identifier les composantes principales et de réduire la dimensionnalité des données.
Exemple de code SAS pour la procédure FACTOR (ACP) :
PROC FACTOR DATA=dataset;
VAR variable1 variable2 variable3;
PRIORS=SMC;
METHOD=PRIN;
RUN;
Procédure CORRESP : La procédure CORRESP est utilisée pour effectuer une analyse factorielle des correspondances (AFC). Elle permet d’analyser les relations entre les variables catégorielles et de visualiser les associations dans un espace de faible dimension.
Exemple de code SAS pour la procédure CORRESP (AFC) :
PROC CORRESP DATA=dataset;
VAR variable1 variable2 variable3;
RUN;
Procédure CANDISC : La procédure CANDISC est utilisée pour effectuer une analyse discriminante canonique (ACM). Elle permet de trouver les combinaisons linéaires des variables qui maximisent la séparation entre les groupes.
Exemple de code SAS pour la procédure CANDISC (ACM) :
PROC CANDISC DATA=dataset;
CANONICAL variable1-variable5 = group;
RUN;
Procédure CLUSTER : La procédure CLUSTER est utilisée pour effectuer une classification non supervisée. Elle permet de regrouper les individus ou les variables similaires en fonction de leurs caractéristiques.
Exemple de code SAS pour la procédure CLUSTER (classification non supervisée) :
PROC CLUSTER DATA=dataset;
VAR variable1-variable5;
METHOD=WARDS;
ID id_variable;
RUN;
Il existe plusieurs autres procédures et options dans SAS qui permettent d’effectuer des analyses multivariées plus spécifiques en fonction de vos besoins. Mais la documentation est là pour vous aider et vous permettre d’aller plus loin.
Teaser : les principales procédures SAS utilisées en analyse exploratoire des données
Le logiciel SAS propose plusieurs procédures pour effectuer des analyses multivariées, notamment l’analyse en composantes principales (ACP), l’analyse factorielle des correspondances (AFC), l’analyse des correspondances multiples (ACM) et la classification non supervisée. Voici les principales procédures SAS utilisées pour ces analyses :
Procédure FACTOR : La procédure FACTOR est utilisée pour effectuer une analyse factorielle, y compris l’analyse en composantes principales (ACP). Elle permet d’identifier les composantes principales et de réduire la dimensionnalité des données.
Exemple de code SAS pour la procédure FACTOR (ACP) :
PROC FACTOR DATA=dataset;
VAR variable1 variable2 variable3;
PRIORS=SMC;
METHOD=PRIN;
RUN;
Procédure CORRESP : La procédure CORRESP est utilisée pour effectuer une analyse factorielle des correspondances (AFC). Elle permet d’analyser les relations entre les variables catégorielles et de visualiser les associations dans un espace de faible dimension.
Exemple de code SAS pour la procédure CORRESP (AFC) :
PROC CORRESP DATA=dataset;
VAR variable1 variable2 variable3;
RUN;
Procédure CANDISC : La procédure CANDISC est utilisée pour effectuer une analyse discriminante canonique (ACM). Elle permet de trouver les combinaisons linéaires des variables qui maximisent la séparation entre les groupes.
Exemple de code SAS pour la procédure CANDISC (ACM) :
PROC CANDISC DATA=dataset;
CANONICAL variable1-variable5 = group;
RUN;
Procédure CLUSTER : La procédure CLUSTER est utilisée pour effectuer une classification non supervisée. Elle permet de regrouper les individus ou les variables similaires en fonction de leurs caractéristiques.
Exemple de code SAS pour la procédure CLUSTER (classification non supervisée) :
PROC CLUSTER DATA=dataset;
VAR variable1-variable5;
METHOD=WARDS;
ID id_variable;
RUN;
Il existe plusieurs autres procédures et options dans SAS qui permettent d’effectuer des analyses multivariées plus spécifiques en fonction de vos besoins. Mais la documentation est là pour vous aider et vous permettre d’aller plus loin.