Régression linéaire et analyse de la variance avec R

 
  3 jours       1620       Avancé    
  Prochaine session
10, 11, 12 juin 2025

  Prochaines sessions et informations pratiques

Formation langage R
Objectifs de la formation
  • Comprendre et savoir mettre en œuvre un modèle de régression linéaire.
  • Savoir mesurer la qualité et la performance d’un modèle de régression.
  • Comprendre et savoir mener une analyse de la variance à un ou deux facteurs.
Régression linéaire et analyse de la variance avec R
Prérequis

Public visé

Data analysts, chargés d’études statistiques


Programme détaillé

La formation traite de modèles entrant dans le cadre du modèle linéaire général (GLM), pour modéliser des phénomènes quantitatifs.

Régression linéaire simple

  • Point de vue descriptif : méthode des moindres carrés (MCO)
  • Point de vue inférentiel : validation et qualité du modèle
  • Généralisation du modèle en prévision
  • Applications sur cas pratiques

Régression linéaire multiple

  • Estimation et validation du modèle
  • Sélection de modèles : sélections backward, forward ou stepwise à l’aide des critères AIC, BIC ou Cp de Mallows
  • Traitements des variables explicatives qualitatives
  • Evaluation de la qualité prédictive d’un modèle
  • Applications sur cas pratiques

Analyse de la variance à un facteur

  • Le modèle à effets fixes, tests de comparaisons multiples, analyse de la variance non paramétrique
  • Applications sur cas pratiques

Analyse de la variance à deux facteurs et plus

  • La notion d’interactions
  • Utilisation de variables quantitatives et qualitatives dans le cadre du modèle linéaire général (analyse de la covariance)
  • Applications sur cas pratiques

Teaser : principaux package R pour réaliser régressions linéaires et analyses de variance

 

En langage R, il existe plusieurs outils et packages pour réaliser des régressions linéaires et des analyses de la variance. En voici une liste non exhaustive avec quelques exemples d’utilisation :


Le package stats : Ce package est inclus par défaut dans R et contient des fonctions de base pour effectuer des régressions linéaires et des analyses de la variance. Il comprend notamment les fonctions lm() pour les régressions linéaires et aov() pour les analyses de la variance.

Exemple d’utilisation d’une régression linéaire :

model <- lm(dependent_var ~ independent_var, data = dataset)
summary(model)

Exemple d’utilisation d’une analyse de la variance :

model <- aov(dependent_var ~ factor_var, data = dataset)
summary(model)


Le package car : Ce package est utilisé pour effectuer des analyses de la variance et des régressions linéaires avec des diagnostics avancés. Il fournit des outils pour la détection de points aberrants, la vérification des hypothèses, l’examen de l’hétéroscédasticité et bien plus encore.

Exemple d’utilisation avec le package car :

library(car)
model <- lm(dependent_var ~ independent_var, data = dataset)
Anova(model)
influenceIndexPlot(model)


Le package lmtest : Ce package fournit des tests supplémentaires pour les régressions linéaires, tels que le test de White pour l’hétéroscédasticité, le test de Breusch-Pagan pour l’hétéroscédasticité et le test de Durbin-Watson pour l’autocorrélation.

Exemple d’utilisation avec le package lmtest :

library(lmtest)
model <- lm(dependent_var ~ independent_var, data = dataset)
coeftest(model, vcov = vcovHC(model, type = "HC1"))
dwtest(model)


Le package tidyverse : Ce package, qui regroupe plusieurs packages, fournit une approche cohérente pour la manipulation et l’analyse des données. Il comprend notamment les packages dplyr et broom, qui sont utiles pour effectuer des régressions linéaires et des analyses de la variance et obtenir des résultats sous une forme tabulaire.

Exemple d’utilisation avec le package tidyverse :

library(tidyverse)
model <- lm(dependent_var ~ independent_var, data = dataset)
summary(model) %>%
  tidy()


Il existe également d’autres packages spécialisés pour des analyses spécifiques, tels que le package lme4 pour les modèles linéaires mixtes et le package multcomp pour les comparaisons multiples. Le choix des outils dépendra des besoins spécifiques de votre analyse et des fonctionnalités requises.