Coursera

End-to-End Multimodal AI: Fine-Tuning, Fusion, and MLOps

Économisez sur les compétences qui vous font briller avec 40 % de réduction sur 3 mois de Coursera Plus. Économisez maintenant

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

End-to-End Multimodal AI: Fine-Tuning, Fusion, and MLOps

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

2 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

2 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.

  • Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.

  • Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.

  • Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

  • Catégorie : Model Evaluation
  • Catégorie : Technical Communication
  • Catégorie : Machine Learning
  • Catégorie : Machine Learning Algorithms
  • Catégorie : Fine-tuning
  • Catégorie : Data Science
  • Catégorie : Transfer Learning
  • Catégorie : API Design
  • Catégorie : Machine Learning Software
  • Catégorie : Model Training
  • Catégorie : Model Optimization
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Data Architecture
  • Catégorie : Solution Architecture
  • Catégorie : Artificial Intelligence and Machine Learning (AI/ML)

Outils que vous découvrirez

  • Catégorie : Model Deployment
  • Catégorie : Vision Transformer (ViT)
  • Catégorie : Restful API
  • Catégorie : OAuth
  • Catégorie : AI Workflows

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Algorithms

Ce cours fait partie de la Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable auprès de Coursera

Il y a 20 modules dans ce cours

You will build the foundational MLOps infrastructure for multimodal AI systems by designing modular data pipeline components and implementing your first multimodal transformer fine-tuning workflow using open source tools.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

You will accelerate multimodal model development using transfer learning techniques and implement the transformation and loading pipeline stages that deliver processed data and trained models reliably to downstream systems.

Inclus

1 vidéo1 lecture3 devoirs

You will identify and analyze training and validation metric patterns to diagnose overfitting and gradient stability issues using TensorBoard visualization tools.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

You will implement targeted interventions including gradient clipping and early stopping to stabilize training processes and prevent common neural network training failures.

Inclus

1 vidéo1 lecture3 devoirs

You will learn systematic image preprocessing techniques including normalization and color-space conversions to prepare raw visual data for computer vision applications.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

You will learn optical flow and frame differencing techniques to extract temporal motion features from video sequences for computer vision applications.

Inclus

2 vidéos1 lecture2 devoirs

You will establish foundational understanding of systematic error analysis approaches and learn to evaluate computer vision model performance beyond basic accuracy metrics.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

You will apply advanced techniques to identify systematic failure patterns in computer vision models and generate comprehensive quality reports for model improvement.

Inclus

1 vidéo1 lecture3 devoirs

You will build foundational understanding of cross-modal retrieval systems and implement approximate nearest-neighbor search algorithms using FAISS for production-scale similarity search across multimodal embeddings.

Inclus

1 vidéo2 lectures1 devoir1 laboratoire non noté

You will design and implement sophisticated attention-based fusion algorithms that intelligently combine visual and textual embeddings, mastering the creation of multimodal neural architectures for advanced cross-modal AI applications.

Inclus

2 lectures3 devoirs

You will learn the foundational concepts of computational complexity analysis, learning to systematically evaluate fusion algorithms using Big O notation and profiling tools.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

You will apply complexity analysis skills to make strategic optimization decisions, evaluating trade-offs between performance, accuracy, and resource constraints in real-world deployment scenarios.

Inclus

1 vidéo3 devoirs

You will learn the systematic evaluation of production ML models to identify performance degradation and implement drift detection systems that automatically trigger remediation actions.

Inclus

1 vidéo1 lecture1 devoir1 laboratoire non noté

You will build comprehensive automated ML pipelines with integrated hyperparameter optimization and end-to-end automation that maintains model performance in production environments.

Inclus

2 vidéos1 lecture3 devoirs

You will build foundational skills for systematically analyzing multimodal AI model outputs, understanding cross-modal relationships, and preparing technical findings for stakeholder communication.

Inclus

2 vidéos1 lecture1 devoir1 laboratoire non noté

You will learn the critical skills of translating complex multimodal AI analysis into compelling business narratives, creating executive-level presentations, and developing stakeholder communication frameworks that drive strategic decisions.

Inclus

2 vidéos1 lecture3 devoirs

You will design and implement versioned API endpoints specifically optimized for multimodal AI inference workloads

Inclus

3 vidéos1 lecture2 devoirs

You will implement comprehensive OAuth2 authentication systems and observability middleware for production API services

Inclus

2 vidéos1 lecture2 devoirs

You will create comprehensive OpenAPI specifications that enable automated testing, client generation, and seamless integration

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

You will build a production-grade multimodal AI system that processes visual and textual data, integrating fine-tuning, cross-modal fusion, and deployment-ready inference services.This capstone synthesizes model optimization, data engineering, API design, and MLOps practices to deliver a deployable, monitored multimodal application.

Inclus

4 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
472 Cours84 390 apprenants

Offert par

Coursera

En savoir plus sur Algorithms

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.