Spark pour la data science

Objectifs de la formation

Comprendre l’architecture de Spark et ses concepts fondamentaux.
Manipuler des données efficacement avec les API structurées (DataFrames, SQL).
Réaliser des transformations avancées et gérer des jointures complexes.
Explorer des cas d’utilisation avancés tels que le streaming structuré et l’apprentissage automatique (MLlib).
Améliorer les performances des pipelines de traitement des données.

Objectifs de la formation

Comprendre l’architecture de Spark et ses concepts fondamentaux.
Manipuler des données efficacement avec les API structurées (DataFrames, SQL).
Réaliser des transformations avancées et gérer des jointures complexes.
Explorer des cas d’utilisation avancés tels que le streaming structuré et l’apprentissage automatique (MLlib).
Améliorer les performances des pipelines de traitement des données.

Prérequis

Connaissances de base en programmation Python et en manipulation de données.

Prérequis

Connaissances de base en programmation Python et en manipulation de données.

Public visé

Cette formation s’adresse à tous les professionnels débutant sur Spark souhaitant se familiariser avec le traitement de données massives. Elle est particulièrement adaptée aux ingénieurs data, data scientists et data analysts.

Public visé

Programme détaillé

Découvrir les bases de Spark (6h)

Introduction : vision et architecture de Spark
Prise en main : configuration de Spark, démarrage de SparkSession
Manipulation de données : création et transformation de DataFrames, utilisation de SQL
Travail avec les formats de données : JSON, CSV, Parquet
Concepts clés : partitionnement, transformations paresseuses et actions

Approfondir et pratiquer (6h)

Joins et agrégations avancées : techniques et optimisation
Streaming structuré : introduction au traitement des flux de données en temps réel
Machine learning avec MLlib : mise en œuvre de modèles de régression, classification et recommandation
Optimisation : techniques de tuning, variables de diffusion et partitionnement
Études de cas pratiques

Programme détaillé

Découvrir les bases de Spark (6h)

Introduction : vision et architecture de Spark
Prise en main : configuration de Spark, démarrage de SparkSession
Manipulation de données : création et transformation de DataFrames, utilisation de SQL
Travail avec les formats de données : JSON, CSV, Parquet
Concepts clés : partitionnement, transformations paresseuses et actions

Approfondir et pratiquer (6h)

Joins et agrégations avancées : techniques et optimisation
Streaming structuré : introduction au traitement des flux de données en temps réel
Machine learning avec MLlib : mise en œuvre de modèles de régression, classification et recommandation
Optimisation : techniques de tuning, variables de diffusion et partitionnement
Études de cas pratiques

Spark pour la data science ? Une bonne idée !

Spark est un système de traitement de données open source et distribué, conçu pour fournir une plateforme de calcul rapide et évolutive. Il a été initialement développé à l’Université de Californie à Berkeley et est maintenant maintenu par la fondation Apache. Tout comme Python, Spark est un excellent choix pour faire de la data science :

Vitesse de traitement élevée : Spark est conçu pour le traitement de données en mémoire, ce qui lui permet d’atteindre des performances élevées. Il effectue des opérations de transformation et d’analyse des données de manière très rapide, ce qui permet de réduire considérablement les temps de calcul par rapport à d’autres systèmes.
Capacité de traitement distribué : Spark utilise un modèle de traitement distribué, ce qui signifie qu’il peut répartir les tâches sur plusieurs nœuds d’un cluster. Cela permet de traiter de grands ensembles de données en parallèle, ce qui améliore les performances et permet de faire face à des charges de travail importantes.
Support de plusieurs langages : Spark offre des API dans plusieurs langages de programmation, notamment Scala, Python, Java et R. Cela permet aux utilisateurs de choisir le langage avec lequel ils sont le plus à l’aise et facilite l’intégration de Spark dans leurs workflows existants.
Richesse des fonctionnalités : Spark offre une large gamme de fonctionnalités pour le traitement et l’analyse des données. Il prend en charge le traitement de flux de données en temps réel, le traitement de graphes, l’apprentissage machine distribué, le traitement de données textuelles et bien plus encore. Il dispose également de bibliothèques complémentaires telles que Spark SQL, Spark Streaming, MLlib et GraphX, qui étendent encore ses capacités.
Intégration avec l’écosystème Hadoop : Spark s’intègre facilement avec l’écosystème Hadoop, ce qui permet d’utiliser des outils complémentaires tels que HDFS (Hadoop Distributed File System), Hive, HBase et d’autres. Cela facilite le travail avec des données stockées dans le cadre de l’écosystème Hadoop.
Facilité d’utilisation : Spark est conçu pour être convivial et offre une API simple et intuitive. Les utilisateurs peuvent écrire du code en utilisant des concepts familiers et des opérations de haut niveau, ce qui facilite le développement et la maintenance des applications Spark.
Évolutivité : Spark est conçu pour être hautement évolutif et peut facilement s’adapter à des volumes de données croissants. Il permet de scaler horizontalement en ajoutant simplement de nouveaux nœuds au cluster, ce qui garantit une bonne performance même avec des ensembles de données massifs.

Tout cela fait de Spark un choix populaire pour la data science. En 3 journées, cette formation vous permettra d’adopter Spark pour réaliser vos projets data en toute autonomie.

Spark pour la data science ? Une bonne idée !

Vitesse de traitement élevée : Spark est conçu pour le traitement de données en mémoire, ce qui lui permet d’atteindre des performances élevées. Il effectue des opérations de transformation et d’analyse des données de manière très rapide, ce qui permet de réduire considérablement les temps de calcul par rapport à d’autres systèmes.
Capacité de traitement distribué : Spark utilise un modèle de traitement distribué, ce qui signifie qu’il peut répartir les tâches sur plusieurs nœuds d’un cluster. Cela permet de traiter de grands ensembles de données en parallèle, ce qui améliore les performances et permet de faire face à des charges de travail importantes.
Support de plusieurs langages : Spark offre des API dans plusieurs langages de programmation, notamment Scala, Python, Java et R. Cela permet aux utilisateurs de choisir le langage avec lequel ils sont le plus à l’aise et facilite l’intégration de Spark dans leurs workflows existants.
Richesse des fonctionnalités : Spark offre une large gamme de fonctionnalités pour le traitement et l’analyse des données. Il prend en charge le traitement de flux de données en temps réel, le traitement de graphes, l’apprentissage machine distribué, le traitement de données textuelles et bien plus encore. Il dispose également de bibliothèques complémentaires telles que Spark SQL, Spark Streaming, MLlib et GraphX, qui étendent encore ses capacités.
Intégration avec l’écosystème Hadoop : Spark s’intègre facilement avec l’écosystème Hadoop, ce qui permet d’utiliser des outils complémentaires tels que HDFS (Hadoop Distributed File System), Hive, HBase et d’autres. Cela facilite le travail avec des données stockées dans le cadre de l’écosystème Hadoop.
Facilité d’utilisation : Spark est conçu pour être convivial et offre une API simple et intuitive. Les utilisateurs peuvent écrire du code en utilisant des concepts familiers et des opérations de haut niveau, ce qui facilite le développement et la maintenance des applications Spark.
Évolutivité : Spark est conçu pour être hautement évolutif et peut facilement s’adapter à des volumes de données croissants. Il permet de scaler horizontalement en ajoutant simplement de nouveaux nœuds au cluster, ce qui garantit une bonne performance même avec des ensembles de données massifs.

Tout cela fait de Spark un choix populaire pour la data science. En 3 journées, cette formation vous permettra d’adopter Spark pour réaliser vos projets data en toute autonomie.

Approche pédagogique

Moyens pédagogiques

Exposé théorique de concepts
Etude de cas concrets
Échanges sur les pratiques et expériences des participants
Temps de questions / réponses

Méthodes pédagogiques

Méthode expositive
Méthode active

Mode de financement	En quoi consiste-t-il ?	A qui s'adresse-t-il ?	Pour quel type de formation ?
Le Plan de développement des compétences	Le plan de développement des compétences rassemble l’ensemble des actions de formation définies dans le cadre de la politique de de gestion des ressources humaines de votre entreprise. Le PDC vous permet de suivre des actions de formation à l’initiative de votre employeur. Il comprend alors un maintien de la rémunération professionnelle, un coût de formation à la charge de l’entreprise et un temps de formation sur le temps de travail. Pour davantage d’information sur les possibilités de prise en charge, adressez-vous à votre service des ressources humaines.	Aux salariés	Pour toutes les formations
Le Compte Personnel de Formation (CPF) Anciennement Droit individuel à la formation (DIF)	Le CPF a été créé pour vous permettre de disposer d’un crédit formation (en euros depuis le 1er janvier 2019) afin de vous former tout au long de votre vie et d’ainsi augmenter votre employabilité. Votre CPF est également utilisable en période de chômage. Nos formations certifiantes sont reconnues d’Etat et inscrites au Répertoire Spécifique. Elles sont référencées sur Mon Compte Formation et finançables par le CPF. Depuis septembre 2020, les entreprises peuvent abonder directement le compte CPF des salariés. L’employeur peut ainsi financer le reste à charge du projet de formation de son salarié. Ici, ni convention ou contrat de formation ne sont signés, ce sont les Conditions Générales d’Utilisation (CGU) du CPF qui s’appliquent. Plus d'informations sur service-public.fr	Aux salariés et aux demandeurs d'emploi	Pour les formations certifiantes
Reconversion ou promotion par alternance (Pro-A, ex-Période de Professionnalisation)	La Reconversion ou promotion par alternance a pour objectif de favoriser l’évolution professionnelle et le maintien dans l’emploi des salariés. Elle prend la forme d’un parcours de formation personnalisé alternant enseignements et activité professionnelle. Plus d'informations sur service-public.fr	Aux salariés	Pour les formations certifiantes
L’Aide Individuelle à la Formation (AIF)	L’AIF contribue au financement des frais pédagogiques de votre formation lorsque les dispositifs de financements existants (collectivités territoriales, OPCO,...) ne peuvent prendre en charge partiellement ou entièrement votre projet formation. Votre conseiller Pôle emploi validera votre projet au regard du contenu et de la durée de la formation, de son coût, mais aussi de son efficacité pour votre retour à l’emploi. Plus d'informations sur pole-emploi.fr	Aux demandeurs d'emploi	Pour toutes les formations
Le Conseil Régional ou le Conseil Départemental	La plupart des collectivités territoriales mettent en place des dispositifs d’aide à la formation professionnelle pour une première recherche d’emploi ou une reconversion professionnelle. Chaque région / département définit sa propre politique en termes de financement des formations. Renseignez-vous auprès du Conseil dont vous dépendez.		Pour toutes les formations
FINANCEMENT DES ACTIONS DE RECLASSEMENT PAR L’EMPLOYEUR	Dans le cadre d’un licenciement économique dans une entreprise de plus de 1000 salariés, le congé de reclassement permet au salarié de se former pendant la durée de son accompagnement. Le financement de la formation dans le cas d’un congé de reclassement est financé par l’employeur et l’OPCO auquel l’entreprise est rattachée. Plus d'informations sur service-public.fr	Aux salariés en congé de reclassement	Pour toutes les formations
FINANCEMENT DE LA CPAM ET DE L’AGEFIPH	Les victimes d’accidents du travail et de maladies professionnelles peuvent bénéficier de l’aide de la CPAM (Caisse primaire d’assurance maladie) qui propose un abondement du CPF. Pour les travailleurs handicapés, l’organisme AGEFIPH (Association de gestion de fonds pour l’insertion professionnelle des handicapés) peut créditer une somme complémentaire sur le CPF.	Aux personnes porteuses d’un handicap	Pour les formations certifiantes