Statistiques descriptives avec R
Prochaines sessions et informations pratiques
- Comprendre et savoir mettre en œuvre les principaux outils de statistique descriptive d’une variable : tableaux, graphiques, indicateurs (tendance centrale, dispersion, forme, concentration).
- Comprendre et savoir mettre en œuvre les principaux outils de statistiques descriptives bivariées : tableaux de contingence, graphiques conditionnels, etc.
- Comprendre et savoir mettre en œuvre les principaux outils de statistique descriptive d’une variable : tableaux, graphiques, indicateurs (tendance centrale, dispersion, forme, concentration).
- Comprendre et savoir mettre en œuvre les principaux outils de statistiques descriptives bivariées : tableaux de contingence, graphiques conditionnels, etc.
Connaissances de base en R (formation R initiation).
Connaissances de base en R (formation R initiation).
Data analysts, chargés d’études statistiques
Data analysts, chargés d’études statistiques
La formation est consacrée à la présentation et la mise en œuvre des principaux outils de statistique descriptive.
Statistiques descriptives pour une variable
- Représentation des distributions statistiques sous forme de tableaux et de graphiques (diagrammes en bâtons, en barres, en secteurs, histogrammes)
- Calcul d’indicateurs de position (moyenne, médiane), de dispersion (variance, écart-type) et de forme
- Applications sur cas pratiques
Statistiques descriptives pour deux variables
- Tableau de contingence
- Calcul d’indicateurs de liaison entre variables : statistique du khi-deux, V de Cramer, coefficient de corrélation linéaire, etc.
- Analyses graphiques de la relation entre deux variables : nuages de points, boîtes à moustaches conditionnelles, etc.
- Applications sur cas pratiques
La formation est consacrée à la présentation et la mise en œuvre des principaux outils de statistique descriptive.
Statistiques descriptives pour une variable
- Représentation des distributions statistiques sous forme de tableaux et de graphiques (diagrammes en bâtons, en barres, en secteurs, histogrammes)
- Calcul d’indicateurs de position (moyenne, médiane), de dispersion (variance, écart-type) et de forme
- Applications sur cas pratiques
Statistiques descriptives pour deux variables
- Tableau de contingence
- Calcul d’indicateurs de liaison entre variables : statistique du khi-deux, V de Cramer, coefficient de corrélation linéaire, etc.
- Analyses graphiques de la relation entre deux variables : nuages de points, boîtes à moustaches conditionnelles, etc.
- Applications sur cas pratiques
Teaser : les principales fonctions R utilisées en statistique descriptive
Le langage R est très populaire parmi les statisticiens et les chercheurs en raison de sa richesse en packages et en fonctionnalités pour effectuer des analyses statistiques. Les principaux outils et méthodes de R pour la statistique descriptive sont les suivants (liste non exhaustive !) :
Fonctions de base : R dispose de fonctions de base pour calculer des mesures de tendance centrale (mean, median, mode), de dispersion (var, sd, range), de position (quantile) et d’autres statistiques descriptives de base.
Exemple de code R pour les fonctions de base :
# Calcul de la moyenne
mean(data)
# Calcul de l'écart-type
sd(data)
# Calcul des quartiles
quantile(data)
Fonction summary() : La fonction summary() génère un résumé statistique complet des variables numériques d’un ensemble de données, y compris les mesures de tendance centrale, de dispersion, les valeurs minimales et maximales, les quartiles, etc.
Exemple de code R avec la fonction summary() :
summary(data)
Fonction describe() : Le package psych
fournit la fonction describe() qui génère un résumé statistique plus détaillé, y compris les mesures de tendance centrale, de dispersion, les valeurs extrêmes, les valeurs manquantes, les valeurs modales, etc.
Exemple de code R avec la fonction describe() :
library(psych)
describe(data)
Fonctions du package dplyr
: Le package dplyr
fournit des fonctions pour effectuer des manipulations de données et des opérations de regroupement (group_by), ce qui permet d’obtenir des statistiques descriptives par groupes.
Exemple de code R avec le package dplyr
:
library(dplyr)
data %>%
group_by(group_variable) %>%
summarise(mean = mean(numeric_variable), sd = sd(numeric_variable))
Fonction table() : La fonction table() permet de générer des tableaux de fréquences pour les variables catégorielles.
Exemple de code R avec la fonction table() :
table(categorical_variable)
Package psych
: Le package psych
propose une variété de fonctions pour effectuer des analyses statistiques descriptives avancées, telles que la matrice de corrélation, l’analyse en composantes principales, la création de graphiques de dispersion, etc.
Exemple de code R avec le package psych
:
library(psych)
cor(data) # Matrice de corrélation
pairs.panels(data) # Graphiques de dispersion
Ces exemples représentent une petite partie des fonctionnalités disponibles dans R pour la statistique descriptive. R dispose d’une vaste gamme de packages et de fonctions qui permettent d’effectuer des analyses descriptives plus spécifiques en fonction de vos besoins. La documentation très détaillée de R est là pour vous aider et vous permettre d’aller plus loin !
Teaser : les principales fonctions R utilisées en statistique descriptive
Le langage R est très populaire parmi les statisticiens et les chercheurs en raison de sa richesse en packages et en fonctionnalités pour effectuer des analyses statistiques. Les principaux outils et méthodes de R pour la statistique descriptive sont les suivants (liste non exhaustive !) :
Fonctions de base : R dispose de fonctions de base pour calculer des mesures de tendance centrale (mean, median, mode), de dispersion (var, sd, range), de position (quantile) et d’autres statistiques descriptives de base.
Exemple de code R pour les fonctions de base :
# Calcul de la moyenne
mean(data)
# Calcul de l'écart-type
sd(data)
# Calcul des quartiles
quantile(data)
Fonction summary() : La fonction summary() génère un résumé statistique complet des variables numériques d’un ensemble de données, y compris les mesures de tendance centrale, de dispersion, les valeurs minimales et maximales, les quartiles, etc.
Exemple de code R avec la fonction summary() :
summary(data)
Fonction describe() : Le package psych
fournit la fonction describe() qui génère un résumé statistique plus détaillé, y compris les mesures de tendance centrale, de dispersion, les valeurs extrêmes, les valeurs manquantes, les valeurs modales, etc.
Exemple de code R avec la fonction describe() :
library(psych)
describe(data)
Fonctions du package dplyr
: Le package dplyr
fournit des fonctions pour effectuer des manipulations de données et des opérations de regroupement (group_by), ce qui permet d’obtenir des statistiques descriptives par groupes.
Exemple de code R avec le package dplyr
:
library(dplyr)
data %>%
group_by(group_variable) %>%
summarise(mean = mean(numeric_variable), sd = sd(numeric_variable))
Fonction table() : La fonction table() permet de générer des tableaux de fréquences pour les variables catégorielles.
Exemple de code R avec la fonction table() :
table(categorical_variable)
Package psych
: Le package psych
propose une variété de fonctions pour effectuer des analyses statistiques descriptives avancées, telles que la matrice de corrélation, l’analyse en composantes principales, la création de graphiques de dispersion, etc.
Exemple de code R avec le package psych
:
library(psych)
cor(data) # Matrice de corrélation
pairs.panels(data) # Graphiques de dispersion
Ces exemples représentent une petite partie des fonctionnalités disponibles dans R pour la statistique descriptive. R dispose d’une vaste gamme de packages et de fonctions qui permettent d’effectuer des analyses descriptives plus spécifiques en fonction de vos besoins. La documentation très détaillée de R est là pour vous aider et vous permettre d’aller plus loin !