Coursera

Multimodal Intelligence - Vision, Audio & Language in Action Certificat Professionnel

Développez vos compétences avec Coursera Plus pour 239 $/an (habituellement 399 $). Économisez maintenant.

Ce certificat professionnel n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Multimodal Intelligence - Vision, Audio & Language in Action Certificat Professionnel

Build and Deploy Multimodal AI Systems.

Design, train, evaluate, and deploy multimodal AI systems that process text, images, and audio.

Inclus avec Coursera Plus

Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez une qualification professionnelle qui traduit votre expertise
niveau Intermédiaire

Expérience recommandée

4 semaines à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text data streams into scalable production pipelines.

  • Fine-tune transformer-based multimodal models using transfer learning and evaluate performance with cross-modal and ethical AI metrics.

  • Build automated ETL pipelines and unified data schemas to ingest, validate, and store multimodal features for model training and inference.

  • Deploy versioned, secured, and documented inference APIs on containerized Kubernetes infrastructure with real-time performance optimization.

Compétences que vous acquerrez

  • Catégorie : API Design
  • Catégorie : CI/CD
  • Catégorie : Computer Vision
  • Catégorie : Data Pipelines
  • Catégorie : Data Preprocessing
  • Catégorie : Data Processing
  • Catégorie : Deep Learning
  • Catégorie : Ethical Standards And Conduct
  • Catégorie : MLOps (Machine Learning Operations)
  • Catégorie : Model Evaluation
  • Catégorie : Multimodal Prompts
  • Catégorie : Natural Language Processing
  • Catégorie : Responsible AI
  • Catégorie : Solution Architecture
  • Catégorie : Transfer Learning

Outils que vous découvrirez

  • Catégorie : Apache Airflow
  • Catégorie : Docker (Software)
  • Catégorie : Kubernetes
  • Catégorie : PyTorch (Machine Learning Library)
  • Catégorie : Restful API
  • Catégorie : Vision Transformer (ViT)

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Enseigné en Anglais
Récemment mis à jour !

mars 2026

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Faites progresser votre carrière avec des compétences recherchées

  • Recevez une formation professionnelle par Coursera
  • Démontrez vos compétences techniques
  • Obtenez un certificat reconnu par les employeurs auprès de Coursera

Certificat professionnel - série de 5 cours

Ce que vous apprendrez

  • Design end-to-end multimodal AI architectures that integrate image, audio, and text pipelines into scalable, production-ready systems.

  • Evaluate multimodal model performance using cross-modal metrics including FID, CLIP scores, recall@k, and Visual Question Answering accuracy.

  • Apply ethical AI frameworks to assess model bias using demographic parity and equalized odds across sensitive population subgroups.

  • Generate model interpretability reports using LIME and SHAP to explain AI predictions and communicate findings to technical stakeholders.

Compétences que vous acquerrez

Catégorie : AI Workflows
Catégorie : Enterprise Architecture
Catégorie : Technical Documentation
Catégorie : Computer Science
Catégorie : Scalability
Catégorie : Data Science
Catégorie : Data Integration
Catégorie : Artificial Intelligence
Catégorie : Model Evaluation
Catégorie : Natural Language Processing
Catégorie : Responsible AI
Catégorie : Machine Learning
Catégorie : Algorithms
Catégorie : Software Architecture
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Data Processing
Catégorie : Image Analysis
Catégorie : Solution Architecture

Ce que vous apprendrez

  • Fine-tune transformer-based multimodal models using transfer learning in PyTorch and TensorFlow.

  • Build cross-modal retrieval systems using FAISS and attention-based fusion of visual and text embeddings.

  • Automate ML pipelines with drift monitoring, hyperparameter tuning, and retraining using MLflow and Ray Tune.

  • Design and document versioned multimodal inference APIs with FastAPI, OAuth2, and OpenAPI specifications.

Compétences que vous acquerrez

Catégorie : Machine Learning Algorithms
Catégorie : Model Deployment
Catégorie : Tensorflow
Catégorie : API Design
Catégorie : Restful API
Catégorie : Vision Transformer (ViT)
Catégorie : Data Architecture
Catégorie : Machine Learning Software
Catégorie : Transfer Learning
Catégorie : OAuth
Catégorie : Artificial Intelligence
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Stakeholder Communications
Catégorie : Machine Learning
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Model Evaluation
Catégorie : Data Science
Catégorie : Applied Machine Learning
Catégorie : Solution Architecture

Ce que vous apprendrez

  • Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.

  • Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.

  • Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.

  • Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.

Compétences que vous acquerrez

Catégorie : Machine Learning Software
Catégorie : Transfer Learning
Catégorie : Data Preprocessing
Catégorie : Natural Language Processing
Catégorie : Data Transformation
Catégorie : Digital Signal Processing
Catégorie : Data Architecture
Catégorie : Computer Vision
Catégorie : Image Analysis
Catégorie : Machine Learning Algorithms
Catégorie : Feature Engineering
Catégorie : Artificial Neural Networks
Catégorie : Machine Learning Methods
Catégorie : Model Evaluation
Catégorie : Data Pipelines
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Hugging Face

Ce que vous apprendrez

  • Design a multimodal feature store and build automated ETL pipelines using BigQuery and Airflow.

  • Write test-driven ML training code and validate multimodal datasets for production readiness.

  • Optimize model inference with TensorRT and manage ML codebases using GitFlow and CI/CD tools.

  • Deploy GPU-accelerated services on Kubernetes and tune autoscaling for real-time performance.

Compétences que vous acquerrez

Catégorie : Natural Language Processing
Catégorie : Algorithms
Catégorie : Extract, Transform, Load
Catégorie : Scalability
Catégorie : Kubernetes
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Data Pipelines
Catégorie : Machine Learning Algorithms
Catégorie : Data Quality
Catégorie : Artificial Intelligence
Catégorie : Test Driven Development (TDD)
Catégorie : Artificial Neural Networks
Catégorie : Apache Airflow
Catégorie : Machine Learning Software
Catégorie : Real Time Data
Catégorie : Data Validation
Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
Catégorie : Model Deployment
Catégorie : CI/CD
Catégorie : Containerization

Ce que vous apprendrez

  • Build multimodal AI systems that integrate vision, audio, and language using cross-attention fusion and transformer architectures.

  • Deploy production-ready multimodal models with optimized inference pipelines, containerization, and automated MLOps workflows.

  • Architect cross-modal retrieval and fusion systems using contrastive learning and embedding alignment for real-world applications.

Compétences que vous acquerrez

Catégorie : Tensorflow
Catégorie : Natural Language Processing
Catégorie : System Design and Implementation
Catégorie : Vision Transformer (ViT)
Catégorie : Computer Vision
Catégorie : Technical Communication
Catégorie : Applied Machine Learning
Catégorie : Generative AI
Catégorie : PyTorch (Machine Learning Library)
Catégorie : Performance Tuning
Catégorie : Deep Learning
Catégorie : Image Analysis
Catégorie : Machine Learning
Catégorie : MLOps (Machine Learning Operations)
Catégorie : Model Deployment

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
321 Cours 45 807 apprenants

Offert par

Coursera

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

¹Basé sur les réponses au sondage sur les résultats des étudiants Coursera, États-Unis, 2021.