Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Nutzen Sie die Ersparnis! Erhalten Sie 40% Rabatt auf 3 Monate Coursera Plus und vollen Zugang zu Tausenden von Kursen.

spezialisierung ist nicht verfügbar in Deutsch (Deutschland)

Wir übersetzen es in weitere Sprachen.
Coursera

Spezialisierung „Real-Time, Real Fast: Kafka & Spark for Data Engineers“

Real-Time Kafka & Spark Data Engineering.

Build fault-tolerant streaming pipelines processing millions of events with Kafka & Spark.

Caio Avelino
Jairo Sanchez
Starweaver

Dozenten: Caio Avelino

Bei Coursera Plus enthalten

Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen
Befassen Sie sich eingehend mit einem Thema
Stufe Mittel

Empfohlene Erfahrung

4 Wochen zu vervollständigen
unter 10 Stunden pro Woche
Flexibler Zeitplan
In Ihrem eigenen Lerntempo lernen

Was Sie lernen werden

  • Design and optimize Kafka clusters for high throughput, low latency, and fault tolerance in production environments

  • Build end-to-end streaming pipelines with Spark Structured Streaming, exactly-once semantics, and schema evolution

  • Implement real-time dashboards, orchestration, and disaster recovery for enterprise streaming architectures

Kompetenzen, die Sie erwerben

  • Kategorie: Data Architecture
  • Kategorie: Data Governance
  • Kategorie: Data Integrity
  • Kategorie: Data Pipelines
  • Kategorie: Data Processing
  • Kategorie: Data Transformation
  • Kategorie: Disaster Recovery
  • Kategorie: Event-Driven Programming
  • Kategorie: Performance Tuning
  • Kategorie: Real Time Data
  • Kategorie: Scalability
  • Kategorie: System Monitoring

Werkzeuge, die Sie lernen werden

  • Kategorie: Apache Kafka
  • Kategorie: Apache Spark
  • Kategorie: Docker (Software)
  • Kategorie: Fraud detection
  • Kategorie: Grafana
  • Kategorie: Power BI
  • Kategorie: Prometheus (Software)
  • Kategorie: PySpark

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Unterrichtet in Englisch
Kürzlich aktualisiert!

Januar 2026

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse.

  • Erlernen Sie gefragte Kompetenzen von Universitäten und Branchenexperten.
  • Erlernen Sie ein Thema oder ein Tool mit echten Projekten.
  • Entwickeln Sie ein fundiertes Verständnisse der Kernkonzepte.
  • Erwerben Sie ein Karrierezertifikat von Coursera.

Spezialisierung - 12 Kursreihen

Was Sie lernen werden

  • Configure Kafka topics with appropriate replication factors, partition counts, and durability settings to ensure high availability.

  • Diagnose performance bottlenecks using consumer lag metrics, broker health indicators, and throughput analysis.

  • Optimize producer and consumer configurations including batching, compression, and parallelism to maximize throughput while meeting latency SLAs.

Kompetenzen, die Sie erwerben

Kategorie: System Configuration
Kategorie: Apache Kafka
Kategorie: Performance Tuning
Kategorie: Distributed Computing
Kategorie: Process Optimization
Kategorie: Data Loss Prevention
Kategorie: Prometheus (Software)
Kategorie: Content Strategy
Kategorie: Scalability
Kategorie: System Monitoring
Kategorie: Command-Line Interface
Kategorie: Grafana
Kategorie: Real Time Data

Was Sie lernen werden

  • Evaluate log configurations to recommend tiered storage, retention policies, and access controls.

  • Design stream processing topologies that implement join patterns, aggregation windows, and state management for real-time data transformation.

  • Optimize real-time data flows by analyzing throughput bottlenecks, partition strategies, and resource allocation to meet SLAs within budget limits.

Kompetenzen, die Sie erwerben

Kategorie: Payment Card Industry (PCI) Data Security Standards
Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Cloud Storage
Kategorie: Application Performance Management
Kategorie: Operational Data Store
Kategorie: Scalability
Kategorie: Data Governance
Kategorie: Computer Architecture
Kategorie: System Monitoring
Kategorie: Data Architecture
Kategorie: Multi-Tenant Cloud Environments
Kategorie: Capacity Management
Kategorie: Data Pipelines
Kategorie: Performance Tuning
Kategorie: Governance
Kategorie: Compliance Management
Kategorie: Apache

Was Sie lernen werden

  • Explain core patterns for schema evolution (backward/forward/full compatibility, additive vs. breaking changes) and select the right strategy.

  • Implement versioned event/data contracts with Avro or Protobuf using a schema registry and enforce compatibility rules in CI/CD.

  • Orchestrate real‑time rollout plans across producers, consumers, and storage (Kafka topics, CDC sinks, warehouses) with monitoring and rollback.

Kompetenzen, die Sie erwerben

Kategorie: Data Pipelines
Kategorie: Data Warehousing
Kategorie: Real Time Data
Kategorie: Data Validation
Kategorie: Automation
Kategorie: Data Modeling
Kategorie: Operational Databases
Kategorie: Software Versioning
Kategorie: Data Integrity
Kategorie: Warehouse Management
Kategorie: Automation Engineering
Kategorie: Continuous Integration
Kategorie: Apache Kafka
Kategorie: Continuous Monitoring

Was Sie lernen werden

  • Stream pipeline design by analyzing failure scenarios and business requirements to prevent data loss or duplication.

  • Implement exactly-once processing semantics across producer, processor, and sink layers using transactions, checkpoints, and idempotent operations.

  • Evaluate watermarking and windowing configurations to optimize the tradeoff between latency and data completeness.

Kompetenzen, die Sie erwerben

Kategorie: Apache Kafka
Kategorie: Apache Spark
Kategorie: Internet Of Things
Kategorie: Event Monitoring
Kategorie: Production Management
Kategorie: Project Implementation
Kategorie: Verification And Validation
Kategorie: Data Architecture
Kategorie: Integration Testing
Kategorie: Data Integrity
Kategorie: Data Pipelines
Kategorie: System Design and Implementation
Kategorie: Real Time Data
Kategorie: Apache
Kategorie: Service Level
Kategorie: Performance Tuning
Kategorie: Transaction Processing

Was Sie lernen werden

  • Explain the execution model of Spark Structured Streaming and build a simple pipeline from a file source to a console sink.

  • Develop streaming pipelines that integrate with Kafka, apply event-time processing with watermarks, and write reliable outputs to Delta Lake.

  • Build an end-to-end Spark streaming pipeline that can be deployed in real-world production environments.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: Event Monitoring
Kategorie: Data Transformation
Kategorie: Scalability
Kategorie: JSON
Kategorie: Data Persistence
Kategorie: Data Pipelines
Kategorie: Data-Driven Decision-Making
Kategorie: Fraud detection
Kategorie: Data Processing
Kategorie: Apache Kafka
Kategorie: PySpark
Kategorie: Event Management

Was Sie lernen werden

  • Inspect Spark UI and metrics (task duration, shuffle I/O, executor CPU/mem) to find bottlenecks and recommend actionable optimizations.

  • Apply partitioning and skew mitigation (salting/custom partitioner) & reduce shuffle (broadcast joins, avoid groupByKey, AQE) to improve parallelism.

  • Configure executors, cores, memory, dynamic allocation and parallelism/caching settings to maximize throughput while meeting defined SLA targets.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Performance Tuning
Kategorie: Debugging
Kategorie: Job Analysis
Kategorie: PySpark
Kategorie: System Configuration
Kategorie: Scalability
Kategorie: Performance Analysis
Kategorie: Database Management
Kategorie: Process Optimization
Kategorie: Resource Allocation

Was Sie lernen werden

  • Architect a streaming data solution by differentiating between batch, micro-batch, and streaming patterns to solve a specific business problem.

  • Develop real-time analytics pipelines using window functions and watermarking to aggregate and analyze streaming data.

  • Optimize a production streaming application by diagnosing performance bottlenecks like data skew and implementing mitigation techniques.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Real Time Data
Kategorie: Fraud detection
Kategorie: Trend Analysis
Kategorie: Internet Of Things
Kategorie: Data Pipelines
Kategorie: Data Analysis
Kategorie: Performance Tuning
Kategorie: Operational Databases
Kategorie: PySpark
Kategorie: Anomaly Detection
Kategorie: Big Data
Kategorie: Data Processing
Kategorie: Dashboard
Kategorie: Performance Analysis
Kategorie: Databricks

Was Sie lernen werden

  • Explain Spark’s streaming model and produce a dashboard-ready table from a simple file source.

  • Construct a real-time pipeline that ingests from Kafka, processes with Spark, and stores result in Delta using event-time windows and watermarks.

  • Operate a production-oriented dashboard with refresh policies, monitoring, and failure recovery.

Kompetenzen, die Sie erwerben

Kategorie: Real Time Data
Kategorie: Apache Spark
Kategorie: Data Integrity
Kategorie: Data Pipelines
Kategorie: Apache Kafka
Kategorie: Business Metrics
Kategorie: Dashboard
Kategorie: PySpark
Kategorie: Continuous Monitoring
Kategorie: JSON
Kategorie: Business Intelligence
Kategorie: Data Persistence
Kategorie: Scalability

Was Sie lernen werden

  • Transform nested and streaming data into analytics-ready tables using programming tools and platforms.

  • Implement automated data quality checks and integrate these checks into CI/CD pipelines to enforce quality gates.

  • Build and manage scalable real-time analytics pipelines that block low-quality data and connect curated datasets to Power BI dashboards.

Kompetenzen, die Sie erwerben

Kategorie: Data Validation
Kategorie: Data Quality
Kategorie: Real Time Data
Kategorie: Power BI
Kategorie: PySpark
Kategorie: Data Transformation
Kategorie: Dashboard
Kategorie: Performance Tuning
Kategorie: Business Intelligence
Kategorie: Data Visualization
Kategorie: CI/CD
Kategorie: Data Governance
Kategorie: Data Pipelines
Kategorie: Data Integrity

Was Sie lernen werden

  • Build and schedule streaming and batch-adjacent workflows using a modern orchestrator, such as Airflow or Prefect.

  • IImplement reliability patterns like idempotence, checkpointing, DLQs, and backfills for fault-tolerant and exactly-once-ish processing.

  • Design multi-region recovery strategies (mirroring/replication) and run playbooks to restore pipelines after partial or regional failures.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Apache Airflow
Kategorie: Disaster Recovery
Kategorie: Data Infrastructure
Kategorie: Data Processing
Kategorie: Data Pipelines
Kategorie: Site Reliability Engineering
Kategorie: Workflow Management
Kategorie: Data Storage Technologies
Kategorie: Data Integrity

Was Sie lernen werden

  • Explain CDC fundamentals (binlog/WAL) and schema evolution strategies.

  • Configure a Schema Registry pipeline locally using Debezium and Kafka.

  • Use streaming SQL (Flink/ksqlDB) to map, cast, and merge divergent schemas into a canonical model.

Kompetenzen, die Sie erwerben

Kategorie: Data Pipelines
Kategorie: Data Validation
Kategorie: Real Time Data
Kategorie: Continuous Integration
Kategorie: Database Design
Kategorie: SQL
Kategorie: Data Transformation
Kategorie: Data Capture
Kategorie: Apache Kafka
Kategorie: Schematic Diagrams
Kategorie: Continuous Monitoring
Kategorie: PostgreSQL
Kategorie: Data Mapping
Kategorie: Cloud Deployment
Kategorie: Data Modeling
Kategorie: Data Storage Technologies
Kategorie: Data Integrity

Was Sie lernen werden

  • Examine core real-time data principles and how Kafka and Spark support streaming architectures.

  • Create real-time pipelines by connecting Kafka topics with Spark Structured Streaming.

  • Improve and deploy streaming systems using monitoring, fault tolerance, and tuning.

Kompetenzen, die Sie erwerben

Kategorie: Apache Spark
Kategorie: Apache Kafka
Kategorie: Real Time Data
Kategorie: Distributed Computing
Kategorie: Performance Management
Kategorie: Software Architecture
Kategorie: System Monitoring
Kategorie: Architecture and Construction
Kategorie: Event-Driven Programming
Kategorie: Systems Architecture
Kategorie: Data Processing
Kategorie: Scalability
Kategorie: Performance Tuning
Kategorie: Data Transformation
Kategorie: Data Pipelines
Kategorie: Real-Time Operating Systems
Kategorie: Application Deployment

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Caio Avelino
9 Kurse 7.852 Lernende
Jairo Sanchez
5 Kurse 7.995 Lernende
Starweaver
Coursera
553 Kurse 1.017.837 Lernende

von

Coursera

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“
Coursera Plus

Neue Karrieremöglichkeiten mit Coursera Plus

Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten

Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.

Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online

Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.

Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.

Häufig gestellte Fragen