This course is designed to equip data engineers with the skills to build scalable and efficient data pipelines using Scala and Spark. Data engineers will learn best practices for development, testing, and deployment in cloud environments, with a focus on optimizing performance and ensuring data quality. The course provides the necessary tools to transform raw data into actionable insights, making it highly relevant in today’s data-driven world.

Data Engineering with Scala and Spark

Expérience recommandée
Ce que vous apprendrez
Set up a development environment for building data pipelines in Scala
Use Spark DataFrames, Datasets, and SQL with Scala for data processing
Profile and clean data using Deequ for improved data quality
Compétences que vous acquerrez
- Catégorie : Unit Testing
- Catégorie : Data Processing
- Catégorie : Cloud Engineering
- Catégorie : Real Time Data
- Catégorie : Data Transformation
- Catégorie : CI/CD
- Catégorie : Data Architecture
- Catégorie : Test Driven Development (TDD)
- Catégorie : Data Quality
- Catégorie : Data Infrastructure
- Catégorie : Big Data
- Catégorie : Data Validation
- Catégorie : Data Integrity
- Catégorie : Data Pipelines
- Catégorie : Performance Tuning
Outils que vous découvrirez
- Catégorie : Data Lakes
- Catégorie : Apache Kafka
- Catégorie : Scala Programming
- Catégorie : Apache Airflow
- Catégorie : Apache Spark
Détails à connaître

Ajouter à votre profil LinkedIn
mars 2026
13 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Il y a 13 modules dans ce cours
In this section, we explore functional programming, higher-order functions, polymorphic functions, and pattern matching in Scala for data engineering applications.
Inclus
2 vidéos6 lectures1 devoir
In this section, we explore cloud-based and local environments for data engineering pipelines, focusing on setup processes, trade-offs, and practical applications.
Inclus
1 vidéo5 lectures1 devoir
In this section, we explore Apache Spark's APIs, focusing on DataFrame and Dataset for distributed data processing.
Inclus
1 vidéo3 lectures1 devoir
In this section, we explore using Spark JDBC API for database access, designing database interfaces, and performing operations with configuration loading.
Inclus
1 vidéo3 lectures1 devoir
In this section, we explore object stores, data lakes, and lakehouses, focusing on their roles in managing large-scale data workflows efficiently.
Inclus
1 vidéo6 lectures1 devoir
In this section, we explore Spark transformations, aggregations, joins, and window functions to enhance data processing for BI and analytics. Key concepts include efficient data manipulation and pipeline development.
Inclus
1 vidéo4 lectures1 devoir
In this section, we explore Deequ for implementing data quality checks, analyzing completeness and accuracy, and defining constraints to ensure reliable data pipelines.
Inclus
1 vidéo3 lectures1 devoir
In this section, we explore test-driven development, static code analysis, and linting to improve code quality, maintainability, and consistency in data engineering projects.
Inclus
1 vidéo4 lectures1 devoir
In this section, we explore CI/CD practices with GitHub to automate Scala data pipeline workflows, focusing on GitHub Actions, version control, and reliable deployment processes.
Inclus
1 vidéo4 lectures1 devoir
In this section, we explore data pipeline orchestration using tools like Airflow, Argo, Databricks, and Azure Data Factory. We focus on workflow design, task management, and real-world implementation strategies.
Inclus
1 vidéo6 lectures1 devoir
In this section, we analyze Spark UI metrics to identify performance issues, optimize data shuffling, and right-size compute resources for efficient data processing.
Inclus
1 vidéo4 lectures1 devoir
In this section, we explore building batch pipelines using Spark and Scala, focusing on medallion architecture, data ingestion, transformation, and orchestration for scalable data processing.
Inclus
1 vidéo5 lectures1 devoir
In this section, we explore building real-time data pipelines using Spark, Scala, and Kafka for IoT applications. Key concepts include data ingestion, transformation, and serving layer design.
Inclus
1 vidéo4 lectures1 devoir
Instructeur

Offert par
En savoir plus sur Data Management
Statut : Essai gratuit
Statut : Essai gratuitDuke University
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Yes, you can preview the first video and view the syllabus before you enroll. You must purchase the course to access content not included in the preview.
If you decide to enroll in the course before the session start date, you will have access to all of the lecture videos and readings for the course. You’ll be able to submit assignments once the session starts.
Once you enroll and your session begins, you will have access to all videos and other resources, including reading items and the course discussion forum. You’ll be able to view and submit practice assessments, and complete required graded assignments to earn a grade and a Course Certificate.
Plus de questions
Aide financière disponible,

