Coursera

Preparing Multimodal Data: Vision, Audio, and NLP Pipelines

Développez vos compétences avec Coursera Plus pour 239 $/an (habituellement 399 $). Économisez maintenant.

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
Coursera

Preparing Multimodal Data: Vision, Audio, and NLP Pipelines

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

1 semaine à compléter
à 10 heures par semaine
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Preprocess images and video using normalization, color-space conversion, and motion extraction techniques.

  • Build audio feature extraction and augmentation pipelines using MFCCs and spectral transforms.

  • Fine-tune transformer models and construct text preprocessing pipelines for NLP applications.

  • Evaluate and debug multimodal AI models using automatic metrics and human-in-the-loop frameworks.

Compétences que vous acquerrez

  • Catégorie : Machine Learning Software
  • Catégorie : Transfer Learning
  • Catégorie : Data Preprocessing
  • Catégorie : Natural Language Processing
  • Catégorie : Data Transformation
  • Catégorie : Digital Signal Processing
  • Catégorie : Data Architecture
  • Catégorie : Computer Vision
  • Catégorie : Image Analysis
  • Catégorie : Machine Learning Algorithms
  • Catégorie : Feature Engineering
  • Catégorie : Artificial Neural Networks
  • Catégorie : Machine Learning Methods
  • Catégorie : Model Evaluation
  • Catégorie : Data Pipelines
  • Catégorie : Artificial Intelligence and Machine Learning (AI/ML)

Outils que vous découvrirez

  • Catégorie : Hugging Face

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

mars 2026

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Software Development

Ce cours fait partie de la Multimodal Intelligence - Vision, Audio & Language in Action Certificat Professionnel
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable auprès de Coursera

Il y a 13 modules dans ce cours

You will learn the foundational image preprocessing techniques essential for computer vision applications, including normalization methods and color-space conversions that ensure consistent model performance across diverse visual conditions.

Inclus

1 vidéo2 lectures2 devoirs

You will learn motion analysis techniques essential for dynamic computer vision applications, implementing optical flow algorithms and frame differencing methods to extract temporal features from video sequences for applications like object tracking and action recognition.

Inclus

1 vidéo2 lectures2 devoirs1 laboratoire non noté

You will learn systematic diagnostic techniques to identify and categorize common image quality issues in computer vision datasets

Inclus

2 vidéos1 lecture2 devoirs

You will implement specific algorithmic solutions to correct identified image quality issues and validate improvements using quantitative metrics.

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

You will transform raw audio waveforms into numerical features for machine learning. You will apply spectral analysis techniques such as STFT and MFSCs. Then use cepstral analysis methods like MFCCs to extract richer representations.

Inclus

3 vidéos1 lecture2 devoirs

You will design and implement automated augmentation pipelines that apply noise injection, temporal modifications, and spectral transformations to improve model generalization in real-world acoustic environments.

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

You will learn quantitative performance evaluation techniques for audio models, including calculating industry-standard metrics and identifying degradation patterns across different user cohorts.

Inclus

3 vidéos1 lecture1 devoir1 laboratoire non noté

You will learn systematic root cause analysis techniques for audio model failures, including qualitative error analysis and environmental factor correlation to implement effective remediation strategies.

Inclus

2 vidéos1 lecture3 devoirs

You will learn the process of adapting pre-trained BERT models for specialized domains using Hugging Face Transformers, achieving production-ready performance on domain-specific tasks.

Inclus

3 vidéos1 lecture1 devoir

You will build comprehensive text preprocessing pipelines using spaCy that transform raw text into analysis-ready formats through systematic tokenization, normalization, and encoding workflows.

Inclus

2 vidéos1 lecture2 devoirs1 laboratoire non noté

You will understand the foundational principles of combining automated metrics with human-in-the-loop evaluation for comprehensive language model assessment.

Inclus

3 vidéos1 lecture1 devoir

You will apply integrated evaluation strategies combining automated metrics with human judgment to conduct thorough language model assessments in realistic workplace scenarios.

Inclus

3 vidéos2 devoirs1 laboratoire non noté

In this module, you will design and implement a multimodal AI system that integrates computer vision, audio processing, and natural language processing techniques. You will build a complete data pipeline including data preprocessing, feature extraction, multimodal fusion, model training, and performance evaluation. By the end of this module, you will be able to develop and assess a real-world AI application that combines multiple data types into a unified intelligent system.

Inclus

4 lectures1 devoir

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

Professionals from the Industry
321 Cours 45 807 apprenants

Offert par

Coursera

En savoir plus sur Software Development

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

¹ Certains travaux de ce cours sont notés par l'IA. Pour ces travaux, vos Données internes seront utilisées conformément à Notification de confidentialité de Coursera.