Ce cours pratique dote les apprenants des compétences nécessaires pour concevoir, construire et gérer des flux de travail ETL (Extraction, Transformation, Chargement) de bout en bout à l'aide d'Apache Spark dans un contexte réel d'ingénierie des données. Structuré en deux modules complets, le cours commence par une configuration fondamentale, guidant les apprenants à travers l'installation de composants essentiels tels que PySpark, Hadoop et MySQL. Les participants apprendront à configurer leur environnement, à organiser les structures de projet et à explorer efficacement les ensembles de données sources. Au fur et à mesure que le cours progresse, les apprenants développeront des applications Spark pour effectuer des chargements de données complets et incrémentiels en utilisant l'intégration JDBC avec MySQL. Grâce à des exemples pratiques, ils appliqueront une logique de transformation à l'aide de Spark SQL, filtreront les données en fonction des règles métier et traiteront les pièges courants tels que les incohérences de type et les problèmes de structure de dossier lors du déploiement de Spark. À la fin du cours, les apprenants seront en mesure de construire, d'exécuter et d'optimiser des pipelines ETL basés sur Spark qui sont évolutifs et prêts pour la production, ce qui leur permettra de contribuer efficacement à des rôles d'ingénierie des données dans le monde réel.



Apache Spark : Conception et exécution de pipelines ETL (Hands-On)
Ce cours fait partie de Spécialisation Spark et Python pour le Big data avec PySpark

Instructeur : EDUCBA
Inclus avec
Ce que vous apprendrez
Installer et configurer PySpark, Hadoop et MySQL pour les flux de travail ETL.
Construisez des applications Spark pour des chargements de données complets et incrémentaux via JDBC.
Appliquer des transformations, gérer les problèmes de déploiement et optimiser les pipelines ETL.
Compétences que vous acquerrez
- Catégorie : Extraction, transformation, chargement (ETL)
- Catégorie : Configuration du système
- Catégorie : Importation/exportation de données
- Catégorie : Installation du logiciel
- Catégorie : Apache Hadoop
- Catégorie : Magasin de données
- Catégorie : Environnement de développement
- Catégorie : Pipelines de données
- Catégorie : Transformation de données
- Catégorie : PySpark
- Catégorie : Apache Spark
- Catégorie : MySQL
- Catégorie : Manipulation de données
- Catégorie : Plate-forme Java Enterprise Edition (J2EE)
Détails à connaître

Ajouter à votre profil LinkedIn
août 2025
6 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours
Ce module présente aux apprenants les principes fondamentaux de la construction d'un framework ETL à l'aide d'Apache Spark. Il commence par donner un aperçu de l'écosystème Spark et de ses avantages dans le traitement des Big data. Les apprenants seront guidés dans l'installation et la configuration des progiciels essentiels, la mise en place de l'environnement de développement et la compréhension de la structure d'un projet ETL basé sur Spark. Le module aborde également la manière de travailler avec des ensembles de données du monde réel et de préparer des fichiers de configuration pour les interactions avec les bases de données - en posant des bases solides pour les flux de travail de traitement de données évolutifs.
Inclus
5 vidéos3 devoirs
Ce module guide les apprenants dans la mise en œuvre pratique des processus d'Extraction, de transformation et de chargement (ETL) à l'aide d'Apache Spark. Les apprenants exploreront les chargements complets de données dans MySQL, appliqueront la logique de transformation à l'aide de Spark SQL et traiteront les scénarios de chargement incrémentiel en suivant et en gérant les nouveaux enregistrements. Les leçons comprennent la gestion des erreurs, les stratégies de filtrage, la compatibilité des types de données et l'intégration des bases de données à l'aide de JDBC - le tout dans un environnement PySpark pratique. Ce module renforce les connaissances appliquées de Spark pour les tâches d'ingénierie des données du monde réel.
Inclus
6 vidéos3 devoirs
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
En savoir plus sur Analyse des Données
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?





Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien de demande sur la page de description.
Plus de questions
Aide financière disponible,

