Statistiques descriptives avec Python

 
  2 jours       1080       Initiation    

  Prochaines sessions et informations pratiques

Formation langage Python
Objectifs de la formation
  • Comprendre et savoir mettre en œuvre les principaux outils de statistique descriptive d’une variable : tableaux, graphiques, indicateurs (tendance centrale, dispersion, forme, concentration).
  • Comprendre et savoir mettre en œuvre les principaux outils de statistiques descriptives bivariées : tableaux de contingence, graphiques conditionnels, etc.
Statistiques descriptives avec Python
Prérequis

Connaissances de base en Python (formation Python initiation).


Public visé

Data analysts, chargés d’études statistiques


Programme détaillé

La formation est consacrée à la présentation et la mise en œuvre des principaux outils de statistique descriptive.

Statistiques descriptives pour une variable

  • Représentation des distributions statistiques sous forme de tableaux et de graphiques (diagrammes en bâtons, en barres, en secteurs, histogrammes)
  • Calcul d’indicateurs de position (moyenne, médiane), de dispersion (variance, écart-type) et de forme
  • Applications sur cas pratiques

Statistiques descriptives pour deux variables

  • Tableau de contingence
  • Calcul d’indicateurs de liaison entre variables : statistique du khi-deux, V de Cramer, coefficient de corrélation linéaire, etc.
  • Analyses graphiques de la relation entre deux variables : nuages de points, boîtes à moustaches conditionnelles, etc.
  • Applications sur cas pratiques

Teaser : les principales bibliothèques Python utilisées en statistique descriptive

 

Python est un langage de programmation polyvalent et largement utilisé, offrant de nombreux packages et bibliothèques pour effectuer des analyses statistiques et descriptives. Voici les principales bibliothèques de Python pour mener des travaux de statistique descriptive :


Bibliothèque NumPy : NumPy fournit des fonctions pour effectuer des calculs numériques rapides et efficaces. Elle est souvent utilisée pour le calcul des mesures de tendance centrale, de dispersion et d’autres statistiques descriptives.

Exemple de code Python avec NumPy :

import numpy as np

# Calcul de la moyenne
np.mean(data)

# Calcul de l'écart-type
np.std(data)

# Calcul des quartiles
np.percentile(data, [25, 50, 75])


Bibliothèque Pandas : Pandas est une bibliothèque très utilisée pour la manipulation et l’analyse de données. Elle offre des fonctionnalités pour effectuer des statistiques descriptives, comme le calcul des mesures de tendance centrale, de dispersion, la génération de tableaux de fréquences, etc.

Exemple de code Python avec Pandas :

import pandas as pd

# Calcul de la moyenne
data.mean()

# Calcul de l'écart-type
data.std()

# Tableau de fréquences
data.value_counts()


Bibliothèque SciPy : SciPy est une bibliothèque qui propose des fonctions avancées pour les calculs scientifiques et statistiques. Elle inclut des méthodes pour l’analyse des données, le calcul des statistiques descriptives, l’estimation des paramètres, etc.

Exemple de code Python avec SciPy :

import scipy.stats as stats

# Test de normalité
stats.normaltest(data)

# Régression linéaire
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)


Bibliothèque Matplotlib et Seaborn : Matplotlib et Seaborn sont des bibliothèques de visualisation de données en Python. Elles permettent de créer des graphiques tels que des histogrammes, des diagrammes en boîte, des graphiques en barres, des nuages de points, etc., pour visualiser la distribution et les relations entre les variables.

Exemple de code Python avec Matplotlib :

import matplotlib.pyplot as plt

# Histogramme
plt.hist(data, bins=10)

# Nuage de points
plt.scatter(x, y)

plt.show()


Python dispose d’une vaste gamme d’autres packages et fonctionnalités permettant d’effectuer des analyses descriptives plus avancées en fonction de vos besoins spécifiques. La documentation de chaque bibliothèque et package fournit des informations détaillées sur leur utilisation et vous permettra d’aller plus loin.