Coursera

Open source Data Engineering with Spark, dbt & Airflow Certificat Professionnel

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Open source Data Engineering with Spark, dbt & Airflow Certificat Professionnel

Build Production Data Pipelines at Scale.

Explore Spark, dbt, and Airflow to design, automate, and deploy enterprise-grade data pipelines.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Build modular, production-grade data pipelines using Apache Spark, dbt, and Airflow to ingest, transform, and load data at scale.

  • Design and implement dimensional data models including star schemas, SCD Type 2, and incremental load strategies for data warehouses.

  • Optimize distributed data processing by resolving Spark shuffle, skew, and partitioning issues to improve pipeline performance.

  • Automate deployments and enforce data quality using CI/CD pipelines, Docker containers, and automated testing frameworks like Great Expectations.

Compétences que vous acquerrez

  • Catégorie : CI/CD
  • Catégorie : Cloud Security
  • Catégorie : Data Flow Diagrams (DFDs)
  • Catégorie : Data Modeling
  • Catégorie : Data Pipelines
  • Catégorie : Data Quality
  • Catégorie : Data Validation
  • Catégorie : Data Warehousing
  • Catégorie : Database Design
  • Catégorie : Interviewing Skills
  • Catégorie : Snowflake Schema
  • Catégorie : SQL
  • Catégorie : Star Schema
  • Catégorie : Workflow Management

Outils que vous découvrirez

  • Catégorie : Ansible
  • Catégorie : Apache Airflow
  • Catégorie : Apache Spark
  • Catégorie : Docker (Software)
  • Catégorie : Git (Version Control System)
  • Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 6 cours

Ce que vous apprendrez

  • Build end-to-end data pipelines that automatically ingest from databases, APIs, and streams using Spark, dbt, and Airflow tools.

  • Design data models with historical tracking using SCD Type 2 patterns to preserve complete change history for analytics.

  • Create automated workflows with intelligent retry logic, SLA monitoring, and parameterization for production reliability.

  • Optimize Spark job performance using partitioning and caching strategies to achieve 30%+ runtime improvements.

Compétences que vous acquerrez

Catégorie : Data Warehousing
Catégorie : Apache Spark
Catégorie : Data Flow Diagrams (DFDs)
Catégorie : Extract, Transform, Load
Catégorie : Data Validation
Catégorie : Configuration Management
Catégorie : Data Transformation
Catégorie : Data Integration
Catégorie : Database Development
Catégorie : Apache Airflow
Catégorie : Data Quality
Catégorie : Data Architecture
Catégorie : Enterprise Security
Catégorie : Data Modeling
Catégorie : Data Processing
Catégorie : Data Pipelines
Optimizing Spark and Cloud Data Storage for Analytics

Optimizing Spark and Cloud Data Storage for Analytics

COURS 2, 10 heures

Ce que vous apprendrez

  • Optimize Spark job performance through strategic partitioning and caching, achieving 30%+ runtime improvements using data access analysis.

  • Implement transactional data lakes with Delta format, enabling versioning, ACID operations, and schema evolution for reliable datasets.

  • Provision secure cloud data infrastructure using IAM policies, private networks, and encrypted storage following security best practices.

  • Evaluate and benchmark storage formats (Parquet, ORC, Avro) to select optimal solutions for analytical workloads and cost efficiency.

Compétences que vous acquerrez

Catégorie : Cloud Deployment
Catégorie : Data Warehousing
Catégorie : Data Lakes
Catégorie : Data Storage Technologies
Catégorie : Data Integrity
Catégorie : Cloud Security
Catégorie : Transaction Processing
Catégorie : Infrastructure as Code (IaC)
Catégorie : Data Storage
Catégorie : Performance Tuning
Catégorie : Data Infrastructure
Catégorie : Infrastructure Architecture
Catégorie : Data Management
Catégorie : Data Security
Catégorie : Amazon S3
Catégorie : Cloud Computing
Catégorie : PySpark
Catégorie : Apache Spark
Catégorie : Cloud Storage
Catégorie : Cloud Computing Architecture

Ce que vous apprendrez

  • Design star schema data models with fact and dimension tables that enable intuitive self-service business intelligence reporting.

  • Apply third normal form normalization to optimize database structure while maintaining query performance through indexing strategies.

  • Use advanced SQL window functions to calculate rolling metrics, rankings, and time-series analytics for complex data analysis.

  • Implement database replication and incremental loading techniques to ensure high availability and efficient data warehouse updates.

Compétences que vous acquerrez

Catégorie : Database Architecture and Administration
Catégorie : Data Integration
Catégorie : Relational Databases
Catégorie : Performance Tuning
Catégorie : Database Design
Catégorie : Data Quality
Catégorie : Database Development
Catégorie : Data Warehousing
Catégorie : Database Software
Catégorie : Star Schema
Catégorie : Data Pipelines
Catégorie : Data Modeling
Catégorie : Business Intelligence
Catégorie : SQL
Catégorie : Extract, Transform, Load
DevOps and CI/CD for Data Engineering Performance

DevOps and CI/CD for Data Engineering Performance

COURS 4, 12 heures

Ce que vous apprendrez

  • Resolve merge conflicts and trace bugs using Git history tools, keeping collaborative codebases stable and production-ready.

  • Design branching strategies and automate deployments with CI/CD pipelines to safely promote data pipeline artifacts across environments.

  • Build and publish versioned Docker images and automate server configuration with Ansible for consistent, reproducible environments.

  • Analyze query execution metrics and optimize resource allocation to maintain performance targets in production data systems.

Compétences que vous acquerrez

Catégorie : DevOps
Catégorie : Infrastructure as Code (IaC)
Catégorie : Containerization
Catégorie : Data Infrastructure
Catégorie : Root Cause Analysis
Catégorie : Data Pipelines
Catégorie : Version Control
Catégorie : Ansible
Catégorie : Performance Tuning
Catégorie : Git (Version Control System)
Catégorie : Configuration Management
Catégorie : Continuous Integration
Catégorie : Continuous Deployment
Catégorie : Development Environment
Catégorie : Docker (Software)
Catégorie : CI/CD
Catégorie : Application Deployment
Data Quality and Debugging for Reliable Pipelines

Data Quality and Debugging for Reliable Pipelines

COURS 5, 7 heures

Ce que vous apprendrez

  • Define and automate data quality tests using YAML to validate row counts, null thresholds, and uniqueness across pipeline datasets.

  • Trace data anomalies through pipeline stages by analyzing logs and dashboards to identify and fix the exact source of failure.

  • Apply advanced Python debugging tools — including conditional breakpoints, watchpoints, and pdb — to diagnose and resolve pipeline issues.

  • Resolve complex concurrency bugs by reading stack traces and correlating thread logs to identify deadlocks and race conditions in code.

Compétences que vous acquerrez

Catégorie : Reliability
Catégorie : Data Validation
Catégorie : Data Quality
Catégorie : Dashboard
Catégorie : Python Programming
Catégorie : Data Pipelines
Catégorie : Data Integrity
Catégorie : Root Cause Analysis
Catégorie : Test Automation
Catégorie : Anomaly Detection
Catégorie : Development Testing
Catégorie : YAML
Catégorie : Performance Tuning
Catégorie : DevOps
Catégorie : Generative AI
Catégorie : Debugging
Career Development For Open Source Data Engineering

Career Development For Open Source Data Engineering

COURS 6, 2 heures

Ce que vous apprendrez

  • Build a data engineering portfolio with end-to-end pipeline projects that prove your ability to design, build, and deploy production-style systems.

  • Create a resume, LinkedIn profile, and GitHub presence that position you as a hands-on data engineer ready to contribute from day one.

  • Practice real data engineering interview scenarios and develop structured responses to technical, design, and behavioral questions.

  • Execute a 30-day career launch plan covering portfolio completion, job applications, and networking in the data engineering community.

Compétences que vous acquerrez

Catégorie : Software Development
Catégorie : Professional Development
Catégorie : GitHub
Catégorie : Interviewing Skills
Catégorie : Data Pipelines
Catégorie : Data Infrastructure
Catégorie : Python Programming
Catégorie : Apache Airflow
Catégorie : Portfolio Management
Catégorie : SQL
Catégorie : Apache Spark
Catégorie : Data Quality
Catégorie : Apache
Catégorie : Professional Networking
Catégorie : Collaboration
Catégorie : Communication

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
366 Cours51 989 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.