Qu'est-ce que je recevrai si je m'abonne à ce certificat ?

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours du certificat et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - à partir de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Créer des applications d'IA générative multimodale

Créer des applications d'IA générative multimodale

Ce cours fait partie de Certificat Professionnel IBM RAG et l'IA agentique

Instructeurs : Hailey Quach

11 789 déjà inscrits

Inclus avec

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

59 avis

niveau Intermédiaire

Expérience recommandée

8 heures à compléter

Planning flexible

Apprenez à votre propre rythme

3 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

59 avis

niveau Intermédiaire

Expérience recommandée

8 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Développez les compétences prêtes à l'emploi dont vous avez besoin pour créer des applications d'IA générative multimodale en seulement 3 semaines
Comprendre les concepts fondamentaux et les défis de l'IA multimodale, y compris l'intégration du texte, de la reconnaissance vocale, des images et de la vidéo
Construire des applications d'IA multimodales en utilisant des modèles et des frameworks de pointe tels que Granite d'IBM, Llama de Meta, Whisper d'OpenAI, DALL-E et Sora
Développer des solutions d'IA multimodales, notamment des chatbots et des modèles génératifs d'images/vidéos, en utilisant IBM watsonx.ai, Hugging Face, Flask et Gradio

Compétences que vous acquerrez

Catégorie : Modélisation des grandes langues
Catégorie : Emboîtements
Catégorie : Génération assistée par récupération
Catégorie : Déploiement des applications
Catégorie : Une créativité alimentée par l'IA
Catégorie : Intelligence décisionnelle
Catégorie : Développement de logiciels
Catégorie : Intégrations AI
Catégorie : Invitations multimodales
Catégorie : Candidature au LLM
Catégorie : Développement Web

Outils que vous découvrirez

Catégorie : Ingénierie rapide
Catégorie : Flask (Framework Web)
Catégorie : API OpenAI

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

6 devoirs

Enseigné en Anglais

91% of learners achieved a positive career outcome

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Développement de logiciels

Ce cours fait partie de la Certificat Professionnel IBM RAG et l'IA agentique

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable auprès de IBM

Il y a 3 modules dans ce cours

Prêt à améliorer vos compétences en GenAI ? Entrez dans le monde passionnant de l'IA multimodale, où le langage, les images et la parole s'associent pour créer des applications plus intelligentes et plus interactives. Dans ce cours pratique, vous apprendrez à construire des systèmes qui fonctionnent à travers de multiples modalités, de la création de conteurs et d'assistants de réunion alimentés par l'IA au développement d'outils de sous-titrage d'images et d'applications de génération de vidéos.

Vous acquerrez de l'expérience avec des outils réels tels que Granite d'IBM, Whisper, Sora et DALL-E d'OpenAI, Llama de Meta, Mixtral de Mistral et Gradio. De plus, vous explorerez la recherche multimodale, la réponse aux questions et les systèmes de récupération qui combinent le texte, la reconnaissance vocale et les données visuelles. À la fin du cours, vous serez en mesure de concevoir et de construire des solutions d'IA multimodales complètes à l'aide de Python et de frameworks tels que Flask et Gradio. Si vous cherchez à acquérir des compétences en demande pour construire la prochaine génération d'applications d'IA, inscrivez-vous dès aujourd'hui et donnez un coup de pouce à votre carrière dans l'IA !

Ce module propose une introduction approfondie à l'IA multimodale, en se concentrant sur la manière dont les systèmes d'IA traitent et intègrent de multiples types de données, y compris le texte, la parole et les images. Vous explorerez les concepts de base et certains des défis auxquels vous serez confrontés dans l'IA multimodale, en acquérant des compétences fondamentales avec des techniques de traitement du texte et de la parole. Grâce à des travaux pratiques, vous appliquerez la narration assistée par l'IA, la transcription de la parole en texte et la synthèse de la parole en texte à des applications réelles, telles que des livres audio générés par l'IA et des assistants de réunion automatisés.

Inclus

5 vidéos2 lectures2 devoirs2 éléments d'application6 plugins

5 vidéosTotal 34 minutes

Vidéo : Introduction au cours5 minutes
Vue d'ensemble du certificat professionnel RAG et IA agentique6 minutes
Introduction à l'IA multimodale8 minutes
Technologies de synthèse vocale8 minutes
Technologies de conversion de la parole en texte7 minutes

2 lecturesTotal 5 minutes

Lecture : Aperçu du cours3 minutes
Lecture : Résumé et points forts2 minutes

2 devoirsTotal 36 minutes

Quiz noté : Fondements de l'IA multimodale21 minutes
Quiz pratique : Introduction à l'IA multimodale : traitement du texte et de la parole15 minutes

2 éléments d'applicationTotal 75 minutes

Lab : Utilisez Mistral et gTTS pour créer votre conteur personnel30 minutes
Lab : Construire un assistant de réunion avec Whisper, LangChain et Gradio45 minutes

6 pluginsTotal 32 minutes

Conseils utiles pour l'achèvement des cours3 minutes
Lecture : Qu'est-ce que l'IA générative multimodale et pourquoi est-elle importante ?5 minutes
Lecture : Qu'est-ce que la vision par ordinateur ?7 minutes
Lecture : Traitement du texte, traitement de la parole et synthèse vocale7 minutes
Lecture : Les défis de l'intégration multimodale de l'IA5 minutes
Aide-mémoire : Fondements de l'IA multimodale5 minutes

Ce module explore la façon dont les processus IA génèrent des données visuelles en intégrant des images et des vidéos avec du texte. Vous examinerez les modèles texte-image/image-texte et texte-vidéo/vidéo-texte, le sous-titrage des images et les techniques de fusion nécessaires pour des systèmes d'IA multimodaux efficaces. Grâce à des travaux pratiques, vous appliquerez des modèles de pointe tels que DALL-E et Sora pour générer des images et des vidéos à partir d'invites textuelles. En outre, vous mettrez en œuvre un système de sous-titrage d'images en utilisant le Llama 4 de Meta, acquérant ainsi une expérience pratique dans la combinaison de modèles de vision et de langage pour des applications du monde réel.

Inclus

2 vidéos1 lecture2 devoirs2 éléments d'application3 plugins

2 vidéosTotal 15 minutes

Comprendre le sous-titrage des images avec le lama de Meta7 minutes
Démonstration : Génération de texte à partir d'une vidéo avec Sora d'OpenAI8 minutes

1 lectureTotal 3 minutes

Lecture : Résumé et points forts3 minutes

2 devoirsTotal 31 minutes

Quiz noté : Intégrer les modalités visuelles et vidéo21 minutes
Génération d'images et sous-titrage10 minutes

2 éléments d'applicationTotal 50 minutes

Lab : Guide de génération d'images DALL-E pour les débutants20 minutes
Lab : Construire un système de sous-titrage d'images avec watsonx et Granite d'IBM30 minutes

3 pluginsTotal 35 minutes

Lecture : Introduction aux technologies de conversion du texte en vidéo et de l'image en vidéo12 minutes
Lecture : Forces, limites et applications pratiques des modèles de vision multimodale dans des scénarios du monde réel8 minutes
Aide-mémoire : Intégrer les modalités visuelles et vidéo15 minutes

Le dernier module explore les applications IA multimodales avancées, en intégrant des systèmes basés sur l'image, le texte et la récupération pour construire des solutions innovantes. Vous plongerez dans la recherche multimodale, la réponse aux questions multimodale et les chatbots, en apprenant comment les techniques de recherche multimodale améliorent les moteurs de recherche et les systèmes de recommandation. En outre, vous apprendrez comment l'intégration des données visuelles et textuelles améliore les interactions avec les chatbots. Grâce à des laboratoires pratiques, vous construirez des applications web entièrement fonctionnelles avec des capacités multimodales à l'aide de Flask, en appliquant des modèles et des frameworks de pointe

Inclus

3 vidéos3 lectures2 devoirs2 éléments d'application1 plugin

3 vidéosTotal 18 minutes

Introduction à la Génération augmentée de récupération multimodale (MM-RAG)7 minutes
Chatbots multimodaux et systèmes d'assurance qualité8 minutes
Synthèse du cours4 minutes

3 lecturesTotal 6 minutes

Résumé et points forts2 minutes
Lecture : Félicitations et prochaines étapes2 minutes
Remerciements de l'équipe du cours2 minutes

2 devoirsTotal 36 minutes

Quiz noté : Applications multimodales avancées21 minutes
Créer des applications multimodales avancées15 minutes

2 éléments d'applicationTotal 75 minutes

Lab : Construire un outil de recherche de style en utilisant la recherche et l'extraction multimodale45 minutes
Laboratoire : Construire votre première application Web basée sur des images et alimentée par GenAI : Coach nutritionnel IA30 minutes

1 pluginTotal 10 minutes

Aide-mémoire : Applications multimodales avancées10 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(6 évaluations)

Hailey Quach

IBM

2 Cours81 941 apprenants

Offert par

IBM

En savoir plus sur Développement de logiciels

Pragmatic AI Labs
Multi-modal AI
Cours
Codio
Multimodal Generative AI: Vision, Speech, and Assistants
Cours
Pearson
Programming Generative AI: Unit 3
Cours
Coursera
Multimodal Intelligence - Vision, Audio & Language in Action
Certificat Professionnel

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
78,33 %
4 stars
10 %
3 stars
6,66 %
2 stars
1,66 %
1 star
3,33 %

Affichage de 3 sur 59

Révisé le 26 oct. 2025

Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.

Voir plus d’avis

Débloquez l'accès à plus de 10 000 cours grâce à un abonnement
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez les 4 700 entreprises internationales qui ont choisi Coursera for Business.

Foire Aux Questions

Les compétences en IA générative multimodale, où les systèmes intègrent le texte, la parole, les images et la vidéo, sont très demandées pour des rôles tels que développeur IA, ingénieur en apprentissage automatique, chercheur en IA multimodale et développeur full stack spécialisé dans les expériences utilisateur alimentées par l'IA.

Pas nécessairement. Si vous êtes un développeur Python, vous pouvez commencer à construire avec l'IA générative en utilisant des outils comme IBM watsonx.ai, Flask et Gradio-aucune formation avancée en ML n'est requise.

Les apps d'IA multimodales vont au-delà du développement typique d'apps en incorporant des modèles de langage à grande échelle multimodaux (LLM) et des entrées basées sur les médias comme la parole, les images et la vidéo. Vous utiliserez toujours des outils familiers tels que Python, Flask et Gradio, mais vous apprendrez également à intégrer et à orchestrer des modèles pour des tâches telles que la transcription, la génération d'images et la narration alimentée par l'IA.

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.