Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Nutzen Sie die Ersparnis! Erhalten Sie 40% Rabatt auf 3 Monate Coursera Plus und vollen Zugang zu Tausenden von Kursen.

spezialisierung ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Caio Avelino
Jairo Sanchez
Starweaver

Dozenten: Caio Avelino

Bei Coursera Plus enthalten

Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments

  • Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution

  • Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Kompetenzen, die Sie erwerben

  • Kategorie: Data Architecture
  • Kategorie: Data Governance
  • Kategorie: Data Integrity
  • Kategorie: Data Pipelines
  • Kategorie: Data Processing
  • Kategorie: Data Transformation
  • Kategorie: Disaster Recovery
  • Kategorie: Event-Driven Programming
  • Kategorie: Performance Tuning
  • Kategorie: Real Time Data
  • Kategorie: Scalability
  • Kategorie: System Monitoring

Werkzeuge, die Sie lernen werden

  • Kategorie: Apache Kafka
  • Kategorie: Apache Spark
  • Kategorie: Docker (Software)
  • Kategorie: Fraud detection
  • Kategorie: Grafana
  • Kategorie: Power BI
  • Kategorie: Prometheus (Software)
  • Kategorie: PySpark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch
Kürzlich aktualisiert!

Januar 2026

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse.

  • Erlernen Sie gefragte Kompetenzen von Universitäten und Branchenexperten.
  • Erlernen Sie ein Thema oder ein Tool mit echten Projekten.
  • Entwickeln Sie ein fundiertes Verständnisse der Kernkonzepte.
  • Erwerben Sie ein Karrierezertifikat von Coursera.

Spezialisierung - 12 Kursreihen

Was Sie lernen werden

  • Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.

  • Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.

  • Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Kompetenzen, die Sie erwerben

Kategorie: Performance Tuning
Kategorie: Apache Kafka
Kategorie: System Configuration
Kategorie: Distributed Computing
Kategorie: Content Strategy
Kategorie: Process Optimization
Kategorie: Grafana
Kategorie: Real Time Data
Kategorie: Prometheus (Software)
Kategorie: System Monitoring
Kategorie: Data Loss Prevention
Kategorie: Scalability
Kategorie: Command-Line Interface

Was Sie lernen werden

  • Evaluate log configurations to recommend tiered storage, retention policies, and access controls.

  • Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.

  • Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Kompetenzen, die Sie erwerben

Kategorie: Payment Card Industry (PCI) Data Security Standards
Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: Data Governance
Kategorie: Computer Architecture
Kategorie: Data Architecture
Kategorie: System Monitoring
Kategorie: Application Performance Management
Kategorie: Apache
Kategorie: Multi-Tenant Cloud Environments
Kategorie: Scalability
Kategorie: Compliance Management
Kategorie: Data Pipelines
Kategorie: Operational Data Store
Kategorie: Governance
Kategorie: Capacity Management
Kategorie: Performance Tuning
Kategorie: Cloud Storage

Was Sie lernen werden

  • Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.

  • Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.

  • Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Kompetenzen, die Sie erwerben

Kategorie: Data Pipelines
Kategorie: Data Warehousing
Kategorie: Real Time Data
Kategorie: Automation
Kategorie: Data Modeling
Kategorie: Continuous Integration
Kategorie: Automation Engineering
Kategorie: Continuous Monitoring
Kategorie: Data Integrity
Kategorie: Software Versioning
Kategorie: Operational Databases
Kategorie: Warehouse Management
Kategorie: Apache Kafka
Kategorie: Data Validation

Was Sie lernen werden

  • Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.

  • Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.

  • Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Verification And Validation
Kategorie: Internet Of Things
Kategorie: Project Implementation
Kategorie: Integration Testing
Kategorie: Event Monitoring
Kategorie: System Design and Implementation
Kategorie: Service Level
Kategorie: Production Management
Kategorie: Data Architecture
Kategorie: Performance Tuning
Kategorie: Transaction Processing
Kategorie: Data Integrity
Kategorie: Data Pipelines
Kategorie: Apache
Kategorie: Real Time Data

Was Sie lernen werden

  • Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.

  • Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.

  • Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: JSON
Kategorie: PySpark
Kategorie: Event Management
Kategorie: Data Processing
Kategorie: Scalability
Kategorie: Fraud detection
Kategorie: Event Monitoring
Kategorie: Data Persistence
Kategorie: Data-Driven Decision-Making
Kategorie: Data Transformation
Kategorie: Apache Kafka
Kategorie: Data Pipelines

Was Sie lernen werden

  • Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.

  • Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.

  • Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Performance Tuning
Kategorie: PySpark
Kategorie: Scalability
Kategorie: System Configuration
Kategorie: Job Analysis
Kategorie: Resource Allocation
Kategorie: Debugging
Kategorie: Process Optimization
Kategorie: Database Management
Kategorie: Performance Analysis

Was Sie lernen werden

  • Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.

  • Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.

  • Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Kompetenzen, die Sie erwerben

Kategorie: Fraud detection
Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: PySpark
Kategorie: Internet Of Things
Kategorie: Anomaly Detection
Kategorie: Dashboard
Kategorie: Trend Analysis
Kategorie: Data Processing
Kategorie: Data Pipelines
Kategorie: Data Analysis
Kategorie: Big Data
Kategorie: Databricks
Kategorie: Performance Analysis
Kategorie: Operational Databases
Kategorie: Performance Tuning

Was Sie lernen werden

  • Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.

  • Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.

  • Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Data Integrity
Kategorie: Apache Spark
Kategorie: Scalability
Kategorie: Apache Kafka
Kategorie: Business Intelligence
Kategorie: PySpark
Kategorie: Business Metrics
Kategorie: JSON
Kategorie: Continuous Monitoring
Kategorie: Data Persistence
Kategorie: Dashboard
Kategorie: Data Pipelines

Was Sie lernen werden

  • Transform nested and streaming data into analytics-ready tables using programming tools and platforms.

  • Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.

  • Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: PySpark
Kategorie: Data Transformation
Kategorie: Data Validation
Kategorie: Power BI
Kategorie: Data Quality
Kategorie: Performance Tuning
Kategorie: Business Intelligence
Kategorie: Data Integrity
Kategorie: Data Governance
Kategorie: Dashboard
Kategorie: CI/CD
Kategorie: Data Pipelines
Kategorie: Data Visualization

Was Sie lernen werden

  • Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.

  • IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.

  • Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Kompetenzen, die Sie erwerben

Kategorie: Apache Kafka
Kategorie: Disaster Recovery
Kategorie: Apache Spark
Kategorie: Apache Airflow
Kategorie: Real Time Data
Kategorie: Workflow Management
Kategorie: Site Reliability Engineering
Kategorie: Data Integrity
Kategorie: Data Infrastructure
Kategorie: Data Storage Technologies
Kategorie: Data Pipelines
Kategorie: Data Processing

Was Sie lernen werden

  • Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.

  • Configure a Schema Registry pipeline locally using Debezium and Kafka.

  • Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Kompetenzen, die Sie erwerben

Kategorie: Data Validation
Kategorie: Data Pipelines
Kategorie: Real Time Data
Kategorie: Apache Kafka
Kategorie: PostgreSQL
Kategorie: Data Modeling
Kategorie: Continuous Monitoring
Kategorie: Continuous Integration
Kategorie: Schematic Diagrams
Kategorie: Data Storage Technologies
Kategorie: Data Mapping
Kategorie: Data Integrity
Kategorie: Database Design
Kategorie: Data Capture
Kategorie: SQL
Kategorie: Cloud Deployment
Kategorie: Data Transformation

Was Sie lernen werden

  • Examine core real-time data principles and how Kafka and Spark support streaming architectures.

  • Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.

  • Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Software Architecture
Kategorie: Application Deployment
Kategorie: Event-Driven Programming
Kategorie: Data Pipelines
Kategorie: Distributed Computing
Kategorie: Scalability
Kategorie: Systems Architecture
Kategorie: Architecture and Construction
Kategorie: System Monitoring
Kategorie: Data Transformation
Kategorie: Real-Time Operating Systems
Kategorie: Performance Tuning
Kategorie: Data Processing
Kategorie: Performance Management

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Caio Avelino
9 Kurse 7.842 Lernende
Jairo Sanchez
5 Kurse 7.964 Lernende
Starweaver
Coursera
552 Kurse 1.015.122 Lernende

von

Coursera

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Coursera Plus

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen