IBM
Construire des applications d'IA générative multimodale

Débloquez l'accès à plus de 10 000 cours avec Coursera Plus. Essai gratuit de 7 jours.

IBM

Construire des applications d'IA générative multimodale

Hailey Quach
Ricky Shi

Instructeurs : Hailey Quach

5 610 déjà inscrits

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.7

(39 avis)

niveau Intermédiaire

Expérience recommandée

7 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
4.7

(39 avis)

niveau Intermédiaire

Expérience recommandée

7 heures à compléter
Planning flexible
Apprenez à votre propre rythme

Ce que vous apprendrez

  • Développez les compétences prêtes à l'emploi dont vous avez besoin pour créer des applications d'IA générative multimodale en seulement 3 semaines

  • Comprendre les concepts fondamentaux et les défis de l'IA multimodale, y compris l'intégration du texte, de la reconnaissance vocale, des images et de la vidéo

  • Construire des applications d'IA multimodales en utilisant des modèles et des frameworks de pointe tels que Granite d'IBM, Llama de Meta, Whisper d'OpenAI, DALL-E et Sora

  • Développer des solutions d'IA multimodales, notamment des chatbots et des modèles génératifs d'images/vidéos, en utilisant IBM watsonx.ai, Hugging Face, Flask et Gradio

Compétences que vous acquerrez

  • Catégorie : Invitations multimodales
  • Catégorie : Applications Web
  • Catégorie : Déploiement des applications
  • Catégorie : Flask (Framework Web)
  • Catégorie : OpenAI
  • Catégorie : Candidature au LLM
  • Catégorie : Prompt engineering
  • Catégorie : Développement de logiciels
  • Catégorie : Développement Web

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

6 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise en Développement de logiciels

Ce cours fait partie de la IBM RAG et l'IA agentique Certificat Professionnel
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à ce Certificat Professionnel.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable auprès de IBM

Il y a 3 modules dans ce cours

Ce module fournit une introduction approfondie à l'IA multimodale, en se concentrant sur la façon dont les systèmes d'IA traitent et intègrent plusieurs types de données, y compris le texte, la parole et les images. Vous explorerez les concepts de base et certains des défis auxquels vous serez confrontés dans l'IA multimodale, en acquérant des compétences fondamentales avec les techniques de traitement du texte et de la parole. Grâce à des laboratoires pratiques, vous appliquerez la narration alimentée par l'IA, la transcription de la parole en texte et la synthèse de la parole en texte à des applications réelles, telles que des livres audio générés par l'IA et des assistants de réunion automatisés.

Inclus

5 vidéos2 lectures2 devoirs2 éléments d'application6 plugins

Ce module explore la façon dont les processus IA génèrent des données visuelles en intégrant des images et des vidéos avec du texte. Vous examinerez les modèles texte-image/image-texte et texte-vidéo/vidéo-texte, le sous-titrage des images et les techniques de fusion nécessaires pour des systèmes d'IA multimodaux efficaces. Grâce à des travaux pratiques, vous appliquerez des modèles de pointe tels que DALL-E et Sora pour générer des images et des vidéos à partir d'invites textuelles. En outre, vous mettrez en œuvre un système de sous-titrage d'images en utilisant le Llama 4 de Meta, acquérant ainsi une expérience pratique dans la combinaison de modèles de vision et de langage pour des applications du monde réel.

Inclus

2 vidéos1 lecture2 devoirs2 éléments d'application3 plugins

Le dernier module explore les applications IA multimodales avancées, en intégrant des systèmes basés sur l'image, le texte et la récupération pour construire des solutions innovantes. Vous plongerez dans la recherche multimodale, la réponse aux questions multimodale et les chatbots, en apprenant comment les techniques de recherche multimodale améliorent les moteurs de recherche et les systèmes de recommandation. En outre, vous apprendrez comment l'intégration des données visuelles et textuelles améliore les interactions avec les chatbots. Grâce à des laboratoires pratiques, vous construirez des applications web entièrement fonctionnelles avec des capacités multimodales à l'aide de Flask, en appliquant des modèles et des frameworks de pointe

Inclus

3 vidéos3 lectures2 devoirs2 éléments d'application1 plugin

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Hailey Quach
IBM
2 Cours42 052 apprenants

Offert par

IBM

En savoir plus sur Développement de logiciels

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

4.7

39 avis

  • 5 stars

    85,36 %

  • 4 stars

    9,75 %

  • 3 stars

    2,43 %

  • 2 stars

    0 %

  • 1 star

    2,43 %

Affichage de 3 sur 39

MH
5

Révisé le 26 oct. 2025

Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions