R expert — Passage à l'échelle
Prochaine session
17 et 18 novembre 2025
Prochaines sessions et informations pratiques
- Traiter de larges jeux de données avec R
- Paralléliser les traitements sous R
- Traiter de larges jeux de données avec R
- Paralléliser les traitements sous R
Parmi nos formations au langage R, cette formation est le niveau 3. Elle requiert une bonne maîtrise et une utilisation régulière de R (contenu des formations niveau 1 - R initiation et niveau 2 - R intermédiaire).
Parmi nos formations au langage R, cette formation est le niveau 3. Elle requiert une bonne maîtrise et une utilisation régulière de R (contenu des formations niveau 1 - R initiation et niveau 2 - R intermédiaire).
Toute personne souhaitant développer utiliser R dans un contexte « big data », notamment les data analysts et data scientists.
Toute personne souhaitant développer utiliser R dans un contexte « big data », notamment les data analysts et data scientists.
Traitement de larges jeux de données avec R
Présentation et utilisation de datatable et de dplyr pour traiter de données volumineuses
Présentation du calcul parallèle
Passage à l’échelle
Connexion avec les différentes bases de données (SQL, NOSQL)
Présentation de l’environnement Hadoop, implémentations en R
Présentation d’Apache Spark et intégration avec R
Traitement de larges jeux de données avec R
Présentation et utilisation de datatable et de dplyr pour traiter de données volumineuses
Présentation du calcul parallèle
Passage à l’échelle
Connexion avec les différentes bases de données (SQL, NOSQL)
Présentation de l’environnement Hadoop, implémentations en R
Présentation d’Apache Spark et intégration avec R
Le passage à l'échelle en langage R
Voici quelques détails supplémentaires sur le passage à l’échelle en langage R qui seront abordés lors de cette formation :
Utilisation des packages datatable
et dplyr
Ces deux packages sont couramment utilisés pour effectuer des opérations de manipulation de données de manière efficace et évolutive en R.
datatable
: Ce package offre une alternative à la fonctiondata.frame
de base de R. Il est optimisé pour la gestion de grands ensembles de données et propose des fonctionnalités avancées telles que le filtrage, le tri, l’agrégation et la jointure de données. Il peut être utilisé pour accélérer les opérations de manipulation de données sur de grandes tables.dplyr
: Ce package fournit une grammaire de manipulation de données cohérente et facile à utiliser. Il offre une syntaxe intuitive pour effectuer des opérations courantes telles que la sélection de colonnes, le filtrage, le regroupement, la jointure et la transformation de données. Bien quedplyr
soit plus adapté aux ensembles de données de taille moyenne, il peut également être utilisé pour des tâches de grande envergure en combinaison avec d’autres techniques d’optimisation.
Connexion avec différentes bases de données (SQL, NoSQL)
R dispose de nombreux packages permettant de se connecter à des bases de données SQL et NoSQL, facilitant ainsi l’intégration avec des systèmes de gestion de bases de données (SGBD) populaires. Par exemple :
Pour les bases de données SQL : Les packages tels que
DBI
etRMySQL
(pour MySQL) ouRPostgreSQL
(pour PostgreSQL) permettent de se connecter et d’interagir avec des bases de données SQL en utilisant R.Pour les bases de données NoSQL : Des packages tels que
mongolite
(pour MongoDB) ouelastic
(pour Elasticsearch) offrent des fonctionnalités de connexion et de manipulation de données pour les bases de données NoSQL.
Ces packages permettent de récupérer, manipuler et stocker des données directement depuis R, en utilisant des requêtes SQL ou des méthodes spécifiques à chaque base de données.
Implémentation en R de l’environnement Hadoop
Hadoop est un framework open source conçu pour traiter de gros volumes de données sur des clusters de serveurs. Bien que R puisse être utilisé avec Hadoop, il est plus courant d’utiliser des langages tels que Java, Python ou Scala pour interagir directement avec l’écosystème Hadoop, notamment avec des outils comme HDFS (Hadoop Distributed File System) et MapReduce.
R propose néamoins des packages tels que rhdfs
et rmr2
qui permettent d’intégrer des fonctions R dans le cadre du traitement distribué sur Hadoop. Ces packages permettent d’exécuter du code R sur les données stockées dans HDFS et de tirer parti du parallélisme offert par l’écosystème Hadoop.
Intégration de Apache Spark avec R
Apache Spark est un framework de traitement distribué et de calcul en mémoire. Spark fournit des API pour plusieurs langages, y compris R. L’intégration de R avec Spark permet d’exploiter les fonctionnalités de Spark, telles que le traitement en mémoire, le traitement par lots
Le passage à l'échelle en langage R
Voici quelques détails supplémentaires sur le passage à l’échelle en langage R qui seront abordés lors de cette formation :
Utilisation des packages datatable
et dplyr
Ces deux packages sont couramment utilisés pour effectuer des opérations de manipulation de données de manière efficace et évolutive en R.
datatable
: Ce package offre une alternative à la fonctiondata.frame
de base de R. Il est optimisé pour la gestion de grands ensembles de données et propose des fonctionnalités avancées telles que le filtrage, le tri, l’agrégation et la jointure de données. Il peut être utilisé pour accélérer les opérations de manipulation de données sur de grandes tables.dplyr
: Ce package fournit une grammaire de manipulation de données cohérente et facile à utiliser. Il offre une syntaxe intuitive pour effectuer des opérations courantes telles que la sélection de colonnes, le filtrage, le regroupement, la jointure et la transformation de données. Bien quedplyr
soit plus adapté aux ensembles de données de taille moyenne, il peut également être utilisé pour des tâches de grande envergure en combinaison avec d’autres techniques d’optimisation.
Connexion avec différentes bases de données (SQL, NoSQL)
R dispose de nombreux packages permettant de se connecter à des bases de données SQL et NoSQL, facilitant ainsi l’intégration avec des systèmes de gestion de bases de données (SGBD) populaires. Par exemple :
Pour les bases de données SQL : Les packages tels que
DBI
etRMySQL
(pour MySQL) ouRPostgreSQL
(pour PostgreSQL) permettent de se connecter et d’interagir avec des bases de données SQL en utilisant R.Pour les bases de données NoSQL : Des packages tels que
mongolite
(pour MongoDB) ouelastic
(pour Elasticsearch) offrent des fonctionnalités de connexion et de manipulation de données pour les bases de données NoSQL.
Ces packages permettent de récupérer, manipuler et stocker des données directement depuis R, en utilisant des requêtes SQL ou des méthodes spécifiques à chaque base de données.
Implémentation en R de l’environnement Hadoop
Hadoop est un framework open source conçu pour traiter de gros volumes de données sur des clusters de serveurs. Bien que R puisse être utilisé avec Hadoop, il est plus courant d’utiliser des langages tels que Java, Python ou Scala pour interagir directement avec l’écosystème Hadoop, notamment avec des outils comme HDFS (Hadoop Distributed File System) et MapReduce.
R propose néamoins des packages tels que rhdfs
et rmr2
qui permettent d’intégrer des fonctions R dans le cadre du traitement distribué sur Hadoop. Ces packages permettent d’exécuter du code R sur les données stockées dans HDFS et de tirer parti du parallélisme offert par l’écosystème Hadoop.
Intégration de Apache Spark avec R
Apache Spark est un framework de traitement distribué et de calcul en mémoire. Spark fournit des API pour plusieurs langages, y compris R. L’intégration de R avec Spark permet d’exploiter les fonctionnalités de Spark, telles que le traitement en mémoire, le traitement par lots