End-to-End Multimodal AI: Fine-Tuning, Fusion, and MLOps

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.

End-to-End Multimodal AI: Fine-Tuning, Fusion, and MLOps

Ce cours fait partie de Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Instructeur : Professionals from the Industry

Inclus avec

20 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

20 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

niveau Intermédiaire

Expérience recommandée

2 semaines à compléter

à 10 heures par semaine

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.
Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.
Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.
Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

Catégorie : Model Evaluation
Catégorie : Technical Communication
Catégorie : Machine Learning
Catégorie : Machine Learning Algorithms
Catégorie : Fine-tuning
Catégorie : Data Science
Catégorie : Transfer Learning
Catégorie : API Design
Catégorie : Machine Learning Software
Catégorie : Model Training
Catégorie : Model Optimization
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Data Architecture
Catégorie : Solution Architecture
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)

Outils que vous découvrirez

Catégorie : Model Deployment
Catégorie : Vision Transformer (ViT)
Catégorie : Restful API
Catégorie : OAuth
Catégorie : AI Workflows

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Évaluations

38 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Algorithms

Ce cours fait partie de la Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable auprès de Coursera

Il y a 20 modules dans ce cours

Build production-ready multimodal AI systems that combine vision, language, and audio into unified intelligent applications. This course takes you through the full lifecycle of multimodal model development — from constructing and fine-tuning transformer-based architectures using PyTorch and TensorFlow, to diagnosing training failures, designing cross-modal retrieval systems, and deploying secure, monitored inference APIs.

You will work with real-world tools including CLIP, ViT, FAISS, FastAPI, MLflow, and Ray Tune to build systems that process and integrate multiple data types simultaneously. You will analyze computational complexity to optimize fusion algorithms, evaluate model errors to identify failure patterns, and translate model outputs into stakeholder-ready business insights. This course is built for intermediate practitioners in machine learning and AI who want to move beyond single-modality models and into the cutting edge of AI systems design. By the end, you will have a portfolio of deployable, optimized multimodal systems that demonstrate advanced engineering capability to employers.

You will build the foundational MLOps infrastructure for multimodal AI systems by designing modular data pipeline components and implementing your first multimodal transformer fine-tuning workflow using open source tools.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

3 vidéosTotal 12 minutes

Why Modular Data Pipelines Matter in Enterprise Environments2 minutes
Open Source Tools for Pipeline Development: Spark, dbt, and Airflow6 minutes
Fine-tuning Multimodal Transformers3 minutes

1 lectureTotal 12 minutes

Fundamentals of Modular Data Pipeline Architecture12 minutes

1 devoirTotal 3 minutes

Modular Pipeline Foundations Knowledge Check3 minutes

1 laboratoire non notéTotal 20 minutes

Building Your First Modular Pipeline Component20 minutes

You will accelerate multimodal model development using transfer learning techniques and implement the transformation and loading pipeline stages that deliver processed data and trained models reliably to downstream systems.

Inclus

1 vidéo1 lecture3 devoirs

You will identify and analyze training and validation metric patterns to diagnose overfitting and gradient stability issues using TensorBoard visualization tools.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

2 vidéosTotal 8 minutes

When Neural Networks Fail: The Hidden Cost of Training Problems2 minutes
Understanding Training Dynamics: Patterns, Gradients, and Warning Signs6 minutes

1 lectureTotal 10 minutes

Mathematical Foundations of Gradient Analysis10 minutes

1 devoirTotal 3 minutes

Training Dynamics Diagnosis Assessment3 minutes

1 laboratoire non notéTotal 20 minutes

Neural Network Training Diagnostics Lab20 minutes

You will implement targeted interventions including gradient clipping and early stopping to stabilize training processes and prevent common neural network training failures.

Inclus

1 vidéo1 lecture3 devoirs

1 vidéoTotal 12 minutes

Implementing Gradient Clipping in TensorFlow and PyTorch12 minutes

1 lectureTotal 12 minutes

Training Stabilization Techniques: Gradient Clipping and Early Stopping12 minutes

3 devoirsTotal 31 minutes

Training Pipeline Stabilization Implementation18 minutes
Training Stabilization Techniques Assessment3 minutes
Final Assessment: Neural Network Training Stabilization10 minutes

You will learn systematic image preprocessing techniques including normalization and color-space conversions to prepare raw visual data for computer vision applications.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

3 vidéosTotal 17 minutes

Why Image Preprocessing Matters in Computer Vision3 minutes
Implementing Normalization Techniques with NumPy7 minutes
Converting Between Color Spaces with OpenCV7 minutes

1 lectureTotal 10 minutes

Fundamentals of Image Normalization and Color Space Theory10 minutes

1 devoirTotal 8 minutes

Image Preprocessing Fundamentals Assessment8 minutes

1 laboratoire non notéTotal 18 minutes

Image Preprocessing Pipeline: Normalization & Color-Space Transformations18 minutes

You will learn optical flow and frame differencing techniques to extract temporal motion features from video sequences for computer vision applications.

Inclus

2 vidéos1 lecture2 devoirs

You will establish foundational understanding of systematic error analysis approaches and learn to evaluate computer vision model performance beyond basic accuracy metrics.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

2 vidéosTotal 10 minutes

Why Systematic Error Analysis Matters in Computer Vision3 minutes
Understanding Confusion Matrices and Error Categories7 minutes

1 lectureTotal 12 minutes

Foundations of Computer Vision Error Analysis12 minutes

1 devoirTotal 8 minutes

Evaluating Error Analysis Fundamentals8 minutes

1 laboratoire non notéTotal 20 minutes

Hands-On Confusion Matrix Analysis for Computer Vision Models20 minutes

You will apply advanced techniques to identify systematic failure patterns in computer vision models and generate comprehensive quality reports for model improvement.

Inclus

1 vidéo1 lecture3 devoirs

You will build foundational understanding of cross-modal retrieval systems and implement approximate nearest-neighbor search algorithms using FAISS for production-scale similarity search across multimodal embeddings.

Inclus

1 vidéo2 lectures1 devoir1 laboratoire non noté

1 vidéoTotal 7 minutes

Fundamentals of Cross-Modal Retrieval Systems7 minutes

2 lecturesTotal 18 minutes

FAISS Architecture and Index Types for Production Systems10 minutes
Implementing FAISS Indexing for Cross-Modal Search8 minutes

1 devoirTotal 3 minutes

Cross-Modal Retrieval and FAISS Implementation Assessment3 minutes

1 laboratoire non notéTotal 15 minutes

Building Production-Scale Cross-Modal Retrieval with FAISS15 minutes

You will design and implement sophisticated attention-based fusion algorithms that intelligently combine visual and textual embeddings, mastering the creation of multimodal neural architectures for advanced cross-modal AI applications.

Inclus

2 lectures3 devoirs

You will learn the foundational concepts of computational complexity analysis, learning to systematically evaluate fusion algorithms using Big O notation and profiling tools.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

3 vidéosTotal 16 minutes

Why Algorithm Complexity Analysis Matters in Production AI3 minutes
Applying Big O Analysis to Fusion Algorithm Components7 minutes
Profiling Fusion Algorithms with cProfile6 minutes

1 lectureTotal 8 minutes

Fundamentals of Computational Complexity in Fusion Algorithms8 minutes

1 devoirTotal 5 minutes

Complexity Analysis Fundamentals Assessment5 minutes

1 laboratoire non notéTotal 18 minutes

Profile and Analyze Fusion Algorithm Performance18 minutes

You will apply complexity analysis skills to make strategic optimization decisions, evaluating trade-offs between performance, accuracy, and resource constraints in real-world deployment scenarios.

Inclus

1 vidéo3 devoirs

You will learn the systematic evaluation of production ML models to identify performance degradation and implement drift detection systems that automatically trigger remediation actions.

Inclus

1 vidéo1 lecture1 devoir1 laboratoire non noté

You will build comprehensive automated ML pipelines with integrated hyperparameter optimization and end-to-end automation that maintains model performance in production environments.

Inclus

2 vidéos1 lecture3 devoirs

2 vidéosTotal 15 minutes

End-to-End ML Pipeline Architecture and Components7 minutes
Building Automated ML Pipelines with Ray Tune and MLflow8 minutes

1 lectureTotal 10 minutes

Hyperparameter Optimization Strategies and Integration Patterns10 minutes

3 devoirsTotal 28 minutes

Enterprise ML Pipeline Implementation15 minutes
Automated ML Pipeline Mastery Assessment3 minutes
Final Course Assessment - Automated ML Operations10 minutes

You will build foundational skills for systematically analyzing multimodal AI model outputs, understanding cross-modal relationships, and preparing technical findings for stakeholder communication.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

2 vidéosTotal 10 minutes

The Business Impact of Multimodal AI Interpretation3 minutes
Explainability Tools and Techniques for Multimodal Analysis7 minutes

1 lectureTotal 10 minutes

Understanding Multimodal AI Model Architecture and Output Patterns10 minutes

1 devoirTotal 3 minutes

Multimodal Analysis Fundamentals Knowledge Check3 minutes

1 laboratoire non notéTotal 20 minutes

Multimodal AI Model Analysis for Business Stakeholders20 minutes

You will learn the critical skills of translating complex multimodal AI analysis into compelling business narratives, creating executive-level presentations, and developing stakeholder communication frameworks that drive strategic decisions.

Inclus

2 vidéos1 lecture3 devoirs

2 vidéosTotal 11 minutes

When Technical Excellence Isn't Enough: The Communication Gap in AI3 minutes
Creating Executive Briefings from Technical AI Analysis8 minutes

1 lectureTotal 10 minutes

Business Narrative Frameworks for AI Insights10 minutes

3 devoirsTotal 38 minutes

Developing Comprehensive Executive Briefing from Multimodal Analysis20 minutes
Stakeholder Communication Fundamentals Knowledge Check3 minutes
Comprehensive Multimodal AI Analysis and Stakeholder Communication Assessment15 minutes

You will design and implement versioned API endpoints specifically optimized for multimodal AI inference workloads

Inclus

3 vidéos1 lecture2 devoirs

3 vidéosTotal 15 minutes

Why API Versioning Matters for Multimodal AI Services3 minutes
Fundamentals of Multimodal API Endpoint Design7 minutes
Implementing Versioned Endpoints with FastAPI4 minutes

1 lectureTotal 10 minutes

Designing Robust Data Contracts for Multimodal Inputs10 minutes

2 devoirsTotal 21 minutes

Build a Versioned Multimodal API Prototype18 minutes
API Endpoint Design Knowledge Check3 minutes

You will implement comprehensive OAuth2 authentication systems and observability middleware for production API services

Inclus

2 vidéos1 lecture2 devoirs

2 vidéosTotal 14 minutes

OAuth2 Authentication and API Security Fundamentals7 minutes
Implementing OAuth2 Security Middleware with FastAPI7 minutes

1 lectureTotal 12 minutes

Implementing Comprehensive API Monitoring and Observability12 minutes

2 devoirsTotal 23 minutes

Build Comprehensive Security and Monitoring Middleware20 minutes
Security and Monitoring Implementation Knowledge Check3 minutes

You will create comprehensive OpenAPI specifications that enable automated testing, client generation, and seamless integration

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

2 vidéosTotal 12 minutes

Why Comprehensive API Documentation Drives Developer Adoption4 minutes
Advanced OpenAPI Features for Multimodal APIs8 minutes

1 lectureTotal 11 minutes

OpenAPI Specification Design for Developer Integration11 minutes

2 devoirsTotal 18 minutes

OpenAPI Documentation Knowledge Check3 minutes
Comprehensive OpenAPI Documentation Assessment15 minutes

1 laboratoire non notéTotal 20 minutes

OpenAPI Specification for Multimodal AI Services20 minutes

You will build a production-grade multimodal AI system that processes visual and textual data, integrating fine-tuning, cross-modal fusion, and deployment-ready inference services.This capstone synthesizes model optimization, data engineering, API design, and MLOps practices to deliver a deployable, monitored multimodal application.

Inclus

4 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry

472 Cours84 390 apprenants

Offert par

Coursera

En savoir plus sur Algorithms

Statut : Essai gratuit
Coursera
Multimodal Intelligence - Vision, Audio & Language in Action
Certificat Professionnel
Statut : Essai gratuit
Coursera
Fine-tune Multimodal Models with Transfer Learning
Cours
Statut : Essai gratuit
Coursera
Career Development for Multimodal Intelligence
Cours
Statut : Essai gratuit
Coursera
Production-Ready Multimodal ML Engineering
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

To access the course materials, assignments and to earn a Certificate, you will need to purchase the Certificate experience when you enroll in a course. You can try a Free Trial instead, or apply for Financial Aid. The course may offer 'Full Course, No Certificate' instead. This option lets you see all course materials, submit required assessments, and get a final grade. This also means that you will not be able to purchase a Certificate experience.

When you enroll in the course, you get access to all of the courses in the Certificate, and you earn a certificate when you complete the work. Your electronic Certificate will be added to your Accomplishments page - from there, you can print your Certificate or add it to your LinkedIn profile.

Plus de questions

Visitez le Centre d'Aide pour les Étudiants

Aide financière disponible,

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.