This course is designed to equip data engineers with the skills to build scalable and efficient data pipelines using Scala and Spark. Data engineers will learn best practices for development, testing, and deployment in cloud environments, with a focus on optimizing performance and ensuring data quality. The course provides the necessary tools to transform raw data into actionable insights, making it highly relevant in today’s data-driven world.

Data Engineering with Scala and Spark

Empfohlene Erfahrung
Was Sie lernen werden
Set up a development environment for building data pipelines in Scala
Use Spark DataFrames, Datasets, and SQL with Scala for data processing
Profile and clean data using Deequ for improved data quality
Kompetenzen, die Sie erwerben
- Kategorie: Data Processing
- Kategorie: Big Data
- Kategorie: Cloud Engineering
- Kategorie: Test Driven Development (TDD)
- Kategorie: Data Integrity
- Kategorie: Data Architecture
- Kategorie: Data Infrastructure
- Kategorie: Unit Testing
- Kategorie: Real Time Data
- Kategorie: CI/CD
- Kategorie: Data Quality
- Kategorie: Performance Tuning
- Kategorie: Data Pipelines
- Kategorie: Data Transformation
- Kategorie: Data Validation
Werkzeuge, die Sie lernen werden
- Kategorie: Data Lakes
- Kategorie: Apache Airflow
- Kategorie: Scala Programming
- Kategorie: Apache Spark
- Kategorie: Apache Kafka
Wichtige Details

Zu Ihrem LinkedIn-Profil hinzufügen
März 2026
13 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

In diesem Kurs gibt es 13 Module
In this section, we explore functional programming, higher-order functions, polymorphic functions, and pattern matching in Scala for data engineering applications.
Das ist alles enthalten
2 Videos6 Lektüren1 Aufgabe
In this section, we explore cloud-based and local environments for data engineering pipelines, focusing on setup processes, trade-offs, and practical applications.
Das ist alles enthalten
1 Video5 Lektüren1 Aufgabe
In this section, we explore Apache Spark's APIs, focusing on DataFrame and Dataset for distributed data processing.
Das ist alles enthalten
1 Video3 Lektüren1 Aufgabe
In this section, we explore using Spark JDBC API for database access, designing database interfaces, and performing operations with configuration loading.
Das ist alles enthalten
1 Video3 Lektüren1 Aufgabe
In this section, we explore object stores, data lakes, and lakehouses, focusing on their roles in managing large-scale data workflows efficiently.
Das ist alles enthalten
1 Video6 Lektüren1 Aufgabe
In this section, we explore Spark transformations, aggregations, joins, and window functions to enhance data processing for BI and analytics. Key concepts include efficient data manipulation and pipeline development.
Das ist alles enthalten
1 Video4 Lektüren1 Aufgabe
In this section, we explore Deequ for implementing data quality checks, analyzing completeness and accuracy, and defining constraints to ensure reliable data pipelines.
Das ist alles enthalten
1 Video3 Lektüren1 Aufgabe
In this section, we explore test-driven development, static code analysis, and linting to improve code quality, maintainability, and consistency in data engineering projects.
Das ist alles enthalten
1 Video4 Lektüren1 Aufgabe
In this section, we explore CI/CD practices with GitHub to automate Scala data pipeline workflows, focusing on GitHub Actions, version control, and reliable deployment processes.
Das ist alles enthalten
1 Video4 Lektüren1 Aufgabe
In this section, we explore data pipeline orchestration using tools like Airflow, Argo, Databricks, and Azure Data Factory. We focus on workflow design, task management, and real-world implementation strategies.
Das ist alles enthalten
1 Video6 Lektüren1 Aufgabe
In this section, we analyze Spark UI metrics to identify performance issues, optimize data shuffling, and right-size compute resources for efficient data processing.
Das ist alles enthalten
1 Video4 Lektüren1 Aufgabe
In this section, we explore building batch pipelines using Spark and Scala, focusing on medallion architecture, data ingestion, transformation, and orchestration for scalable data processing.
Das ist alles enthalten
1 Video5 Lektüren1 Aufgabe
In this section, we explore building real-time data pipelines using Spark, Scala, and Kafka for IoT applications. Key concepts include data ingestion, transformation, and serving layer design.
Das ist alles enthalten
1 Video4 Lektüren1 Aufgabe
Dozent

von
Mehr von Data Management entdecken
Status: Kostenloser Testzeitraum
Status: Kostenloser TestzeitraumDuke University
Status: Kostenloser Testzeitraum
Status: Kostenloser Testzeitraum
Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.

Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
Yes, you can preview the first video and view the syllabus before you enroll. You must purchase the course to access content not included in the preview.
If you decide to enroll in the course before the session start date, you will have access to all of the lecture videos and readings for the course. You’ll be able to submit assignments once the session starts.
Once you enroll and your session begins, you will have access to all videos and other resources, including reading items and the course discussion forum. You’ll be able to view and submit practice assessments, and complete required graded assignments to earn a grade and a Course Certificate.
Weitere Fragen
Finanzielle Unterstützung verfügbar,

