Prêt à améliorer vos compétences en GenAI ? Entrez dans le monde passionnant de l'IA multimodale, où le langage, les images et la parole s'associent pour créer des applications plus intelligentes et plus interactives. Dans ce cours pratique, vous apprendrez à construire des systèmes qui fonctionnent à travers de multiples modalités, de la création de conteurs et d'assistants de réunion alimentés par l'IA au développement d'outils de sous-titrage d'images et d'applications de génération de vidéos.

Débloquez l'accès à plus de 10 000 cours avec Coursera Plus. Essai gratuit de 7 jours.

Construire des applications d'IA générative multimodale
Ce cours fait partie de IBM RAG et l'IA agentique Certificat Professionnel


Instructeurs : Hailey Quach
5 610 déjà inscrits
Inclus avec
(39 avis)
Expérience recommandée
Ce que vous apprendrez
Développez les compétences prêtes à l'emploi dont vous avez besoin pour créer des applications d'IA générative multimodale en seulement 3 semaines
Comprendre les concepts fondamentaux et les défis de l'IA multimodale, y compris l'intégration du texte, de la reconnaissance vocale, des images et de la vidéo
Construire des applications d'IA multimodales en utilisant des modèles et des frameworks de pointe tels que Granite d'IBM, Llama de Meta, Whisper d'OpenAI, DALL-E et Sora
Développer des solutions d'IA multimodales, notamment des chatbots et des modèles génératifs d'images/vidéos, en utilisant IBM watsonx.ai, Hugging Face, Flask et Gradio
Compétences que vous acquerrez
- Catégorie : Invitations multimodales
- Catégorie : Applications Web
- Catégorie : Déploiement des applications
- Catégorie : Flask (Framework Web)
- Catégorie : OpenAI
- Catégorie : Candidature au LLM
- Catégorie : Prompt engineering
- Catégorie : Développement de logiciels
- Catégorie : Développement Web
Détails à connaître

Ajouter à votre profil LinkedIn
6 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise en Développement de logiciels
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable auprès de IBM

Il y a 3 modules dans ce cours
Ce module fournit une introduction approfondie à l'IA multimodale, en se concentrant sur la façon dont les systèmes d'IA traitent et intègrent plusieurs types de données, y compris le texte, la parole et les images. Vous explorerez les concepts de base et certains des défis auxquels vous serez confrontés dans l'IA multimodale, en acquérant des compétences fondamentales avec les techniques de traitement du texte et de la parole. Grâce à des laboratoires pratiques, vous appliquerez la narration alimentée par l'IA, la transcription de la parole en texte et la synthèse de la parole en texte à des applications réelles, telles que des livres audio générés par l'IA et des assistants de réunion automatisés.
Inclus
5 vidéos2 lectures2 devoirs2 éléments d'application6 plugins
Ce module explore la façon dont les processus IA génèrent des données visuelles en intégrant des images et des vidéos avec du texte. Vous examinerez les modèles texte-image/image-texte et texte-vidéo/vidéo-texte, le sous-titrage des images et les techniques de fusion nécessaires pour des systèmes d'IA multimodaux efficaces. Grâce à des travaux pratiques, vous appliquerez des modèles de pointe tels que DALL-E et Sora pour générer des images et des vidéos à partir d'invites textuelles. En outre, vous mettrez en œuvre un système de sous-titrage d'images en utilisant le Llama 4 de Meta, acquérant ainsi une expérience pratique dans la combinaison de modèles de vision et de langage pour des applications du monde réel.
Inclus
2 vidéos1 lecture2 devoirs2 éléments d'application3 plugins
Le dernier module explore les applications IA multimodales avancées, en intégrant des systèmes basés sur l'image, le texte et la récupération pour construire des solutions innovantes. Vous plongerez dans la recherche multimodale, la réponse aux questions multimodale et les chatbots, en apprenant comment les techniques de recherche multimodale améliorent les moteurs de recherche et les systèmes de recommandation. En outre, vous apprendrez comment l'intégration des données visuelles et textuelles améliore les interactions avec les chatbots. Grâce à des laboratoires pratiques, vous construirez des applications web entièrement fonctionnelles avec des capacités multimodales à l'aide de Flask, en appliquant des modèles et des frameworks de pointe
Inclus
3 vidéos3 lectures2 devoirs2 éléments d'application1 plugin
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Offert par
En savoir plus sur Développement de logiciels
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?




Avis des étudiants
39 avis
- 5 stars
85,36 %
- 4 stars
9,75 %
- 3 stars
2,43 %
- 2 stars
0 %
- 1 star
2,43 %
Affichage de 3 sur 39
Révisé le 26 oct. 2025
Wow, It was next Level Experience to learn the Multimodal Gen AI Development. Truly Amazing.

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Les compétences en IA générative multimodale, où les systèmes intègrent le texte, la parole, les images et la vidéo, sont très demandées pour des rôles tels que développeur IA, ingénieur en apprentissage automatique, chercheur en IA multimodale et développeur full stack spécialisé dans les expériences utilisateur alimentées par l'IA.
Pas nécessairement. Si vous êtes un développeur Python, vous pouvez commencer à construire avec l'IA générative en utilisant des outils comme IBM watsonx.ai, Flask et Gradio-aucune formation avancée en ML n'est requise.
Les apps d'IA multimodales vont au-delà du développement typique d'apps en incorporant des modèles de langage à grande échelle multimodaux (LLM) et des entrées basées sur les médias comme la parole, les images et la vidéo. Vous utiliserez toujours des outils familiers tels que Python, Flask et Gradio, mais vous apprendrez également à intégrer et à orchestrer des modèles pour des tâches telles que la transcription, la génération d'images et la narration alimentée par l'IA.
Plus de questions
Aide financière disponible,

