Coursera

Open source Data Engineering with Spark, dbt & Airflow (berufsbezogenes Zertifikat)

Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

berufsbezogenes zertifikat ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
Coursera

Open source Data Engineering with Spark, dbt & Airflow (berufsbezogenes Zertifikat)

Build Production Data Pipelines at Scale.

Explore Spark, dbt, and Airflow to design, automate, and deploy enterprise-grade data pipelines.

Bei Coursera Plus enthalten

Erwerben Sie eine Karrierereferenz, die Ihre Qualifikation belegt
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Erwerben Sie eine Karrierereferenz, die Ihre Qualifikation belegt
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Build modular, production-grade data pipelines using Apache Spark, dbt, and Airflow to ingest, transform, and load data at scale.

  • Design and implement dimensional data models including star schemas, SCD Type 2, and incremental load strategies for data warehouses.

  • Optimize distributed data processing by resolving Spark shuffle, skew, and partitioning issues to improve pipeline performance.

  • Automate deployments and enforce data quality using CI/CD pipelines, Docker containers, and automated testing frameworks like Great Expectations.

Kompetenzen, die Sie erwerben

  • Kategorie: CI/CD
  • Kategorie: Cloud Security
  • Kategorie: Data Flow Diagrams (DFDs)
  • Kategorie: Data Modeling
  • Kategorie: Data Pipelines
  • Kategorie: Data Validation
  • Kategorie: Data Warehousing
  • Kategorie: Database Design
  • Kategorie: Diagram Design
  • Kategorie: Interviewing Skills
  • Kategorie: Snowflake Schema
  • Kategorie: SQL
  • Kategorie: Star Schema
  • Kategorie: Workflow Management

Werkzeuge, die Sie lernen werden

  • Kategorie: Ansible
  • Kategorie: Apache Airflow
  • Kategorie: Apache Spark
  • Kategorie: Docker (Software)
  • Kategorie: Git (Version Control System)
  • Kategorie: PySpark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch
Kürzlich aktualisiert!

März 2026

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Bringen Sie Ihre Karriere mit gefragten Kompetenzen voran.

  • Erhalten Sie Schulungen auf professionellem Niveau von Coursera
  • Stellen Sie Ihre technischen Kenntnisse unter Beweis.
  • Erwerben Sie ein von Arbeitgebern anerkanntes Zertifikat von Coursera.

Berufsbezogenes Zertifikat – 6 Kursreihen

Was Sie lernen werden

  • Build end-to-end data pipelines that automatically ingest from databases, APIs, and streams using Spark, dbt, and Airflow tools.

  • Design data models with historical tracking using SCD Type 2 patterns to preserve complete change history for analytics.

  • Create automated workflows with intelligent retry logic, SLA monitoring, and parameterization for production reliability.

  • Optimize Spark job performance using partitioning and caching strategies to achieve 30%+ runtime improvements.

Kompetenzen, die Sie erwerben

Kategorie: Data Pipelines
Kategorie: Apache Airflow
Kategorie: Data Flow Diagrams (DFDs)
Kategorie: Apache Spark
Kategorie: Data Transformation
Kategorie: Data Architecture
Kategorie: Diagram Design
Kategorie: Enterprise Security
Kategorie: Configuration Management
Kategorie: Data Mapping
Kategorie: Data Integration
Kategorie: Extract, Transform, Load
Kategorie: Database Development
Kategorie: Data Modeling
Kategorie: Data Processing
Kategorie: Data Warehousing
Optimizing Spark and Cloud Data Storage for Analytics

Optimizing Spark and Cloud Data Storage for Analytics

KURS 2, 10 Stunden

Was Sie lernen werden

  • Optimize Spark job performance through strategic partitioning and caching, achieving 30%+ runtime improvements using data access analysis.

  • Implement transactional data lakes with Delta format, enabling versioning, ACID operations, and schema evolution for reliable datasets.

  • Provision secure cloud data infrastructure using IAM policies, private networks, and encrypted storage following security best practices.

  • Evaluate and benchmark storage formats (Parquet, ORC, Avro) to select optimal solutions for analytical workloads and cost efficiency.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Performance Tuning
Kategorie: Cloud Security
Kategorie: Transaction Processing
Kategorie: Data Storage
Kategorie: Data Warehousing
Kategorie: Cloud Infrastructure
Kategorie: Cloud Deployment
Kategorie: PySpark
Kategorie: Data Storage Technologies
Kategorie: Cloud Computing
Kategorie: Infrastructure Architecture
Kategorie: Cloud Computing Architecture
Kategorie: Security Controls
Kategorie: Data Security
Kategorie: Infrastructure as Code (IaC)
Kategorie: Data Lakes
Kategorie: Cloud Storage
Kategorie: Data Management
Kategorie: Data Integrity

Was Sie lernen werden

  • Design star schema data models with fact and dimension tables that enable intuitive self-service business intelligence reporting.

  • Apply third normal form normalization to optimize database structure while maintaining query performance through indexing strategies.

  • Use advanced SQL window functions to calculate rolling metrics, rankings, and time-series analytics for complex data analysis.

  • Implement database replication and incremental loading techniques to ensure high availability and efficient data warehouse updates.

Kompetenzen, die Sie erwerben

Kategorie: Extract, Transform, Load
Kategorie: Data Warehousing
Kategorie: Star Schema
Kategorie: Performance Tuning
Kategorie: Database Design
Kategorie: Database Management
Kategorie: SQL
Kategorie: Data Integration
Kategorie: Database Development
Kategorie: Business Intelligence
Kategorie: Database Software
Kategorie: Data Infrastructure
Kategorie: PostgreSQL
Kategorie: Database Theory
Kategorie: Data Modeling
Kategorie: Database Architecture and Administration
Kategorie: Relational Databases
DevOps and CI/CD for Data Engineering Performance

DevOps and CI/CD for Data Engineering Performance

KURS 4, 12 Stunden

Was Sie lernen werden

  • Resolve merge conflicts and trace bugs using Git history tools, keeping collaborative codebases stable and production-ready.

  • Design branching strategies and automate deployments with CI/CD pipelines to safely promote data pipeline artifacts across environments.

  • Build and publish versioned Docker images and automate server configuration with Ansible for consistent, reproducible environments.

  • Analyze query execution metrics and optimize resource allocation to maintain performance targets in production data systems.

Kompetenzen, die Sie erwerben

Kategorie: DevOps
Kategorie: CI/CD
Kategorie: Containerization
Kategorie: Git (Version Control System)
Kategorie: Performance Tuning
Kategorie: Ansible
Kategorie: Data Pipelines
Kategorie: Root Cause Analysis
Kategorie: Development Environment
Kategorie: Data Infrastructure
Kategorie: Version Control
Kategorie: Continuous Integration
Kategorie: Docker (Software)
Kategorie: Software Versioning
Kategorie: Continuous Deployment
Kategorie: Devops Tools
Kategorie: Configuration Management
Kategorie: Infrastructure as Code (IaC)
Kategorie: Application Deployment
Data Quality and Debugging for Reliable Pipelines

Data Quality and Debugging for Reliable Pipelines

KURS 5, 7 Stunden

Was Sie lernen werden

  • Define and automate data quality tests using YAML to validate row counts, null thresholds, and uniqueness across pipeline datasets.

  • Trace data anomalies through pipeline stages by analyzing logs and dashboards to identify and fix the exact source of failure.

  • Apply advanced Python debugging tools — including conditional breakpoints, watchpoints, and pdb — to diagnose and resolve pipeline issues.

  • Resolve complex concurrency bugs by reading stack traces and correlating thread logs to identify deadlocks and race conditions in code.

Kompetenzen, die Sie erwerben

Kategorie: Data Quality
Kategorie: Data Validation
Kategorie: Debugging
Kategorie: YAML
Kategorie: Anomaly Detection
Kategorie: Test Automation
Kategorie: Data Integrity
Kategorie: Python Programming
Kategorie: Memory Management
Kategorie: AI Integrations
Kategorie: Performance Tuning
Kategorie: Reliability
Kategorie: Root Cause Analysis
Kategorie: CI/CD
Kategorie: Generative AI
Kategorie: Data Pipelines
Kategorie: Test Tools
Career Development For Open Source Data Engineering

Career Development For Open Source Data Engineering

KURS 6, 2 Stunden

Was Sie lernen werden

  • Build a data engineering portfolio with end-to-end pipeline projects that prove your ability to design, build, and deploy production-style systems.

  • Create a resume, LinkedIn profile, and GitHub presence that position you as a hands-on data engineer ready to contribute from day one.

  • Practice real data engineering interview scenarios and develop structured responses to technical, design, and behavioral questions.

  • Execute a 30-day career launch plan covering portfolio completion, job applications, and networking in the data engineering community.

Kompetenzen, die Sie erwerben

Kategorie: Data Quality
Kategorie: Interviewing Skills
Kategorie: Data Pipelines
Kategorie: Professional Networking
Kategorie: Apache
Kategorie: Data Presentation
Kategorie: Apache Spark
Kategorie: SQL
Kategorie: Web Presence
Kategorie: Portfolio Management
Kategorie: Apache Airflow
Kategorie: GitHub
Kategorie: Python Programming

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozent

Professionals from the Industry
472 Kurse83.382 Lernende

von

Coursera

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Häufig gestellte Fragen

¹Basierend auf den Antworten der „Coursera Learner Outcomes Survey“, USA, 2021.