Coursera

Data Engineering & Pipeline Reliability for Machine Learning

Développez vos compétences avec Coursera Plus pour 239 $/an (habituellement 399 $). Économisez maintenant.

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Data Engineering & Pipeline Reliability for Machine Learning

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Transform and validate data for machine learning using encoding, cleansing, and data quality techniques

  • Design and orchestrate ML data pipelines that ensure reliability, freshness, and pipeline performance

  • Manage reproducible ML development using version control and environment management tools

Compétences que vous acquerrez

  • Catégorie : Exploratory Data Analysis
  • Catégorie : Data Validation
  • Catégorie : Extract, Transform, Load
  • Catégorie : Data Transformation
  • Catégorie : Cost Management
  • Catégorie : Feature Engineering
  • Catégorie : Resource Utilization
  • Catégorie : Data Integrity
  • Catégorie : Data Cleansing
  • Catégorie : Virtual Environment
  • Catégorie : Data Preprocessing
  • Catégorie : Version Control
  • Catégorie : Package and Software Management
  • Catégorie : Data Quality
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Quality Assurance
  • Catégorie : Dataflow
  • Catégorie : Data Pipelines

Outils que vous découvrirez

  • Catégorie : Apache Airflow
  • Catégorie : Git (Version Control System)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Machine Learning Made Easy for Software Engineers"
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 10 modules dans ce cours

You will analyze categorical features to determine the optimal encoding strategy based on cardinality and model fit considerations.

Inclus

2 vidéos2 lectures1 devoir

You will evaluate data quality metrics and document data transformation lineage to ensure transparency and reliability.

Inclus

1 vidéo1 lecture1 devoir

You will apply techniques to impute, flag, and validate missing or null values to produce consistent, model-ready datasets.

Inclus

1 vidéo1 lecture2 devoirs

You will apply ETL and ELT pipelines to ingest data from various sources into a feature store using structured transformation workflows.

Inclus

2 vidéos1 lecture1 devoir

You will analyze upstream schema changes and implement safeguards to maintain data pipeline resilience and downstream compatibility.

Inclus

2 vidéos1 lecture

You will evaluate data freshness, lag, and pipeline success rates against service level agreements to assess operational reliability.

Inclus

1 vidéo1 lecture3 devoirs

You will apply version control branching strategies to manage code, experiments, and project artifacts effectively.

Inclus

3 vidéos1 lecture2 devoirs

You will apply virtual environment tools to configure reproducible project environments with stable dependencies.

Inclus

2 vidéos1 lecture1 laboratoire non noté

You will analyze resource utilization across CPU, GPU, and memory usage to optimize compute costs during experimentation.

Inclus

2 vidéos1 lecture2 devoirs

In this project, you will design and implement a production-style machine learning data pipeline for a financial services risk modeling scenario. The raw dataset contains missing values, inconsistent categorical entries, potential outliers, and simulated schema drift. Your task is to transform this dataset into a validated, model-ready feature store. You will clean and preprocess structured tabular data, select encoding strategies based on feature cardinality, implement data validation using Great Expectations, detect schema changes between pipeline runs, generate SLA metrics to assess reliability, and save processed features in parquet format. Beyond the core pipeline, you will also apply professional development practices that are standard in production ML teams: setting up a virtual environment for reproducibility, using version control branching strategies to manage your work, and analyzing resource utilization to understand compute costs. Your final deliverable is a modular Python script and a structured written engineering explanation that demonstrates your ability to design reliable, production-aligned ML data infrastructure.

Inclus

2 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
366 Cours51 989 apprenants

Offert par

Coursera

En savoir plus sur Data Management

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.