Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Certificat Professionnel Multimodal Intelligence - Vision, Audio & Language in Action

Build and Deploy Multimodal AI Systems.

Design, train, evaluate, and deploy multimodal AI systems that process text, images, and audio.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text data streams into scalable production pipelines.

  • Fine-tune transformer-based multimodal models using transfer learning and evaluate performance with cross-modal and ethical AI metrics.

  • Build automated ETL pipelines and unified data schemas to ingest, validate, and store multimodal features for model training and inference.

  • Deploy versioned, secured, and documented inference APIs on containerized Kubernetes infrastructure with real-time performance optimization.

Compétences que vous acquerrez

  • Catégorie : API Design
  • Catégorie : CI/CD
  • Catégorie : Computer Vision
  • Catégorie : Data Pipelines
  • Catégorie : Data Preprocessing
  • Catégorie : Data Processing
  • Catégorie : Deep Learning
  • Catégorie : Ethical Standards And Conduct
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Model Evaluation
  • Catégorie : Multimodal Prompts
  • Catégorie : Natural Language Processing
  • Catégorie : Responsible AI
  • Catégorie : Solution Architecture
  • Catégorie : Transfer Learning

Outils que vous découvrirez

  • Catégorie : Apache Airflow
  • Catégorie : Docker (Software)
  • Catégorie : Kubernetes
  • Catégorie : PyTorch (Machine Learning Library)
  • Catégorie : Restful API
  • Catégorie : Vision Transformer (ViT)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 5 cours

Solution Architecture and Ethical AI Design

Solution Architecture and Ethical AI Design

COURS 1, 4 heures

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text pipelines into scalable, production-ready systems.

  • Evaluate multimodal model performance using cross-modal metrics including FID, CLIP scores, recall@k, and Visual Question Answering accuracy.

  • Apply ethical AI frameworks to assess model bias using demographic parity and equalized odds across sensitive population subgroups.

  • Generate model interpretability reports using LIME and SHAP to explain AI predictions and communicate findings to technical stakeholders.

Compétences que vous acquerrez

Catégorie : Solution Architecture
Catégorie : Responsible AI
Catégorie : Technical Documentation
Catégorie : Data Science
Catégorie : Computer Science
Catégorie : Scalability
Catégorie : Image Quality
Catégorie : Enterprise Architecture
Catégorie : Model Evaluation
Catégorie : Solution Design
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : AI Orchestration
Catégorie : Systems Architecture
Catégorie : Data Ethics
Catégorie : Generative Model Architectures
Catégorie : AI Integrations
Catégorie : Algorithms
Catégorie : Machine Learning
Catégorie : Natural Language Processing
Catégorie : Software Documentation

Ce que vous apprendrez

  • Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.

  • Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.

  • Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.

  • Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

Catégorie : API Design
Catégorie : Model Optimization
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Fine-tuning
Catégorie : Transfer Learning
Catégorie : Model Training
Catégorie : Model Evaluation
Catégorie : Technical Communication
Catégorie : Machine Learning
Catégorie : Machine Learning Algorithms
Catégorie : Model Deployment
Catégorie : Vision Transformer (ViT)
Catégorie : Restful API
Catégorie : Data Science
Catégorie : Machine Learning Software
Catégorie : OAuth
Catégorie : AI Workflows
Catégorie : Data Architecture
Catégorie : Solution Architecture
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)

Ce que vous apprendrez

  • Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.

  • Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.

  • Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.

  • Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.

Compétences que vous acquerrez

Catégorie : Data Preprocessing
Catégorie : Data Transformation
Catégorie : Computer Vision
Catégorie : Image Quality
Catégorie : Model Evaluation
Catégorie : Feature Engineering
Catégorie : Model Training
Catégorie : Data Pipelines
Catégorie : Natural Language Processing
Catégorie : Digital Signal Processing
Catégorie : Data Architecture
Catégorie : Image Analysis
Catégorie : Machine Learning Algorithms
Catégorie : Data Processing
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Machine Learning Software
Catégorie : Fine-tuning
Catégorie : Machine Learning Methods
Catégorie : Hugging Face
Catégorie : Artificial Neural Networks
Production-Ready Multimodal ML Engineering

Production-Ready Multimodal ML Engineering

COURS 4, 12 heures

Ce que vous apprendrez

  • Design a multimodal feature store and build automated ETL pipelines using BigQuery and Airflow.

  • Write test-driven ML training code and validate multimodal datasets for production readiness.

  • Optimize model inference with TensorRT and manage ML codebases using GitFlow and CI/CD tools.

  • Deploy GPU-accelerated services on Kubernetes and tune autoscaling for real-time performance.

Compétences que vous acquerrez

Catégorie : Data Pipelines
Catégorie : Model Training
Catégorie : Test Driven Development (TDD)
Catégorie : Kubernetes
Catégorie : Extract, Transform, Load
Catégorie : Data Validation
Catégorie : Containerization
Catégorie : Apache Airflow
Catégorie : Natural Language Processing
Catégorie : Algorithms
Catégorie : Artificial Intelligence
Catégorie : Machine Learning Algorithms
Catégorie : Model Optimization
Catégorie : Cloud-Native Computing
Catégorie : Model Deployment
Catégorie : Data Integrity
Catégorie : Artificial Neural Networks
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Machine Learning Software
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Career Development for Multimodal Intelligence

Career Development for Multimodal Intelligence

COURS 5, 2 heures

Ce que vous apprendrez

  • Build multimodal AI systems that integrate vision, audio, and language using cross-attention fusion and transformer architectures.

  • Deploy production-ready multimodal models with optimized inference pipelines, containerization, and automated MLOps workflows.

  • Architect cross-modal retrieval and fusion systems using contrastive learning and embedding alignment for real-world applications.

Compétences que vous acquerrez

Catégorie : Retrieval-Augmented Generation
Catégorie : Embeddings
Catégorie : Natural Language Processing
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Generative AI
Catégorie : Model Optimization
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Model Deployment
Catégorie : Applied Machine Learning
Catégorie : Deep Learning
Catégorie : Image Analysis
Catégorie : Large Language Modeling
Catégorie : AI Integrations
Catégorie : Vision Transformer (ViT)
Catégorie : Machine Learning
Catégorie : Computer Vision
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Model Training
Catégorie : Generative Model Architectures
Catégorie : Tensorflow

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
472 Cours84 390 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.