Coursera

Open source Data Engineering with Spark, dbt & Airflow Certificat Professionnel

Développez vos compétences avec Coursera Plus pour 239 $/an (habituellement 399 $). Économisez maintenant.

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Open source Data Engineering with Spark, dbt & Airflow Certificat Professionnel

Build Production Data Pipelines at Scale.

Explore Spark, dbt, and Airflow to design, automate, and deploy enterprise-grade data pipelines.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Build modular, production-grade data pipelines using Apache Spark, dbt, and Airflow to ingest, transform, and load data at scale.

  • Design and implement dimensional data models including star schemas, SCD Type 2, and incremental load strategies for data warehouses.

  • Optimize distributed data processing by resolving Spark shuffle, skew, and partitioning issues to improve pipeline performance.

  • Automate deployments and enforce data quality using CI/CD pipelines, Docker containers, and automated testing frameworks like Great Expectations.

Compétences que vous acquerrez

  • Catégorie : CI/CD
  • Catégorie : Cloud Security
  • Catégorie : Data Flow Diagrams (DFDs)
  • Catégorie : Data Modeling
  • Catégorie : Data Pipelines
  • Catégorie : Data Quality
  • Catégorie : Data Validation
  • Catégorie : Data Warehousing
  • Catégorie : Database Design
  • Catégorie : Interviewing Skills
  • Catégorie : Snowflake Schema
  • Catégorie : SQL
  • Catégorie : Star Schema
  • Catégorie : Workflow Management

Outils que vous découvrirez

  • Catégorie : Ansible
  • Catégorie : Apache Airflow
  • Catégorie : Apache Spark
  • Catégorie : Docker (Software)
  • Catégorie : Git (Version Control System)
  • Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 6 cours

Ce que vous apprendrez

  • Build end-to-end data pipelines that automatically ingest from databases, APIs, and streams using Spark, dbt, and Airflow tools.

  • Design data models with historical tracking using SCD Type 2 patterns to preserve complete change history for analytics.

  • Create automated workflows with intelligent retry logic, SLA monitoring, and parameterization for production reliability.

  • Optimize Spark job performance using partitioning and caching strategies to achieve 30%+ runtime improvements.

Compétences que vous acquerrez

Catégorie : Data Validation
Catégorie : Apache Airflow
Catégorie : Data Integration
Catégorie : Database Development
Catégorie : Data Quality
Catégorie : Data Architecture
Catégorie : Data Warehousing
Catégorie : Enterprise Security
Catégorie : Data Flow Diagrams (DFDs)
Catégorie : Data Processing
Catégorie : Apache Spark
Catégorie : Data Pipelines
Catégorie : Data Modeling
Catégorie : Configuration Management
Catégorie : Extract, Transform, Load
Catégorie : Data Transformation
Optimizing Spark and Cloud Data Storage for Analytics

Optimizing Spark and Cloud Data Storage for Analytics

COURS 2, 10 heures

Ce que vous apprendrez

  • Optimize Spark job performance through strategic partitioning and caching, achieving 30%+ runtime improvements using data access analysis.

  • Implement transactional data lakes with Delta format, enabling versioning, ACID operations, and schema evolution for reliable datasets.

  • Provision secure cloud data infrastructure using IAM policies, private networks, and encrypted storage following security best practices.

  • Evaluate and benchmark storage formats (Parquet, ORC, Avro) to select optimal solutions for analytical workloads and cost efficiency.

Compétences que vous acquerrez

Catégorie : Infrastructure Architecture
Catégorie : Cloud Security
Catégorie : Data Storage
Catégorie : Amazon S3
Catégorie : PySpark
Catégorie : Cloud Computing Architecture
Catégorie : Transaction Processing
Catégorie : Apache Spark
Catégorie : Data Storage Technologies
Catégorie : Infrastructure as Code (IaC)
Catégorie : Data Warehousing
Catégorie : Data Lakes
Catégorie : Cloud Deployment
Catégorie : Data Infrastructure
Catégorie : Data Integrity
Catégorie : Data Security
Catégorie : Cloud Storage
Catégorie : Cloud Computing
Catégorie : Performance Tuning
Catégorie : Data Management

Ce que vous apprendrez

  • Design star schema data models with fact and dimension tables that enable intuitive self-service business intelligence reporting.

  • Apply third normal form normalization to optimize database structure while maintaining query performance through indexing strategies.

  • Use advanced SQL window functions to calculate rolling metrics, rankings, and time-series analytics for complex data analysis.

  • Implement database replication and incremental loading techniques to ensure high availability and efficient data warehouse updates.

Compétences que vous acquerrez

Catégorie : Extract, Transform, Load
Catégorie : Data Warehousing
Catégorie : Data Pipelines
Catégorie : Star Schema
Catégorie : Database Architecture and Administration
Catégorie : Data Integration
Catégorie : Database Development
Catégorie : Database Design
Catégorie : Relational Databases
Catégorie : SQL
Catégorie : Data Quality
Catégorie : Performance Tuning
Catégorie : Data Modeling
Catégorie : Business Intelligence
Catégorie : Database Software
DevOps and CI/CD for Data Engineering Performance

DevOps and CI/CD for Data Engineering Performance

COURS 4, 12 heures

Ce que vous apprendrez

  • Resolve merge conflicts and trace bugs using Git history tools, keeping collaborative codebases stable and production-ready.

  • Design branching strategies and automate deployments with CI/CD pipelines to safely promote data pipeline artifacts across environments.

  • Build and publish versioned Docker images and automate server configuration with Ansible for consistent, reproducible environments.

  • Analyze query execution metrics and optimize resource allocation to maintain performance targets in production data systems.

Compétences que vous acquerrez

Catégorie : Continuous Deployment
Catégorie : Git (Version Control System)
Catégorie : Data Infrastructure
Catégorie : Infrastructure as Code (IaC)
Catégorie : Configuration Management
Catégorie : CI/CD
Catégorie : Performance Tuning
Catégorie : DevOps
Catégorie : Containerization
Catégorie : Development Environment
Catégorie : Continuous Integration
Catégorie : Docker (Software)
Catégorie : Ansible
Catégorie : Version Control
Catégorie : Application Deployment
Catégorie : Root Cause Analysis
Catégorie : Data Pipelines
Data Quality and Debugging for Reliable Pipelines

Data Quality and Debugging for Reliable Pipelines

COURS 5, 7 heures

Ce que vous apprendrez

  • Define and automate data quality tests using YAML to validate row counts, null thresholds, and uniqueness across pipeline datasets.

  • Trace data anomalies through pipeline stages by analyzing logs and dashboards to identify and fix the exact source of failure.

  • Apply advanced Python debugging tools — including conditional breakpoints, watchpoints, and pdb — to diagnose and resolve pipeline issues.

  • Resolve complex concurrency bugs by reading stack traces and correlating thread logs to identify deadlocks and race conditions in code.

Compétences que vous acquerrez

Catégorie : YAML
Catégorie : DevOps
Catégorie : Data Integrity
Catégorie : Data Validation
Catégorie : Root Cause Analysis
Catégorie : Reliability
Catégorie : Python Programming
Catégorie : Performance Tuning
Catégorie : Generative AI
Catégorie : Test Automation
Catégorie : Data Pipelines
Catégorie : Dashboard
Catégorie : Anomaly Detection
Catégorie : Debugging
Catégorie : Data Quality
Catégorie : Development Testing
Career Development For Open Source Data Engineering

Career Development For Open Source Data Engineering

COURS 6, 2 heures

Ce que vous apprendrez

  • Build a data engineering portfolio with end-to-end pipeline projects that prove your ability to design, build, and deploy production-style systems.

  • Create a resume, LinkedIn profile, and GitHub presence that position you as a hands-on data engineer ready to contribute from day one.

  • Practice real data engineering interview scenarios and develop structured responses to technical, design, and behavioral questions.

  • Execute a 30-day career launch plan covering portfolio completion, job applications, and networking in the data engineering community.

Compétences que vous acquerrez

Catégorie : Apache Airflow
Catégorie : Data Pipelines
Catégorie : Data Quality
Catégorie : Professional Development
Catégorie : Interviewing Skills
Catégorie : Apache Spark
Catégorie : Collaboration
Catégorie : Communication
Catégorie : Portfolio Management
Catégorie : SQL
Catégorie : Data Infrastructure
Catégorie : Python Programming
Catégorie : Apache
Catégorie : GitHub
Catégorie : Software Development
Catégorie : Professional Networking

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
366 Cours51 989 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.