构建多模态生成式 AI 应用程序

构建多模态生成式 AI 应用程序

本课程是 IBM RAG 和 Agentic AI 专业证书的一部分

位教师：Hailey Quach

访问权限由 Coursera Learning Team 提供

11,789 人已注册

3个模块

深入了解一个主题并学习基础知识。

59 条评论

中级等级

推荐体验

8 小时完成

灵活的计划

自行安排学习进度

3个模块

深入了解一个主题并学习基础知识。

59 条评论

中级等级

推荐体验

8 小时完成

灵活的计划

自行安排学习进度

您将学到什么

在短短 3 周内，掌握构建多模态生成式 AI 应用程序所需的就业就绪技能
了解多模态 AI 的基本概念和挑战，包括文本、语音、图像和视频的整合
使用最先进的模型和框架（如 IBM 的 Granite、Meta 的 Llama、OpenAI 的 Whisper、DALL-E 和 Sora）构建多模态 AI 应用程序
使用 IBM watsonx.ai、Hugging Face、Flask 和 Generative AI 开发多模态 AI 解决方案，包括聊天机器人和图像/视频生成模型

您将获得的技能

您将学习的工具

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

6 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累软件开发领域的专业知识

本课程是 IBM RAG 和 Agentic AI 专业证书专项课程的一部分

在注册此课程时，您还会同时注册此专业证书。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
通过 IBM 获得可共享的职业证书

该课程共有3个模块

准备好提升您的 GenAI 技能了吗？进入令人兴奋的多模态 AI 世界吧！在这里，语言、图像和语音将共同构建更智能、更具交互性的应用程序。在本实践课程中，您将学习如何构建跨模态的系统，从创建 AI 驱动的故事讲述者和会议助手，到开发图像字幕工具和视频生成应用程序。

您将获得使用真实世界工具的经验，如 IBM 的 Granite、OpenAI 的 Whisper、Sora 和 DALL-E、Meta 的 Llama、Mistral 的 Mixtral 和 Gradio。此外，您还将探索结合文本、语音和 Visualization 数据的多模态搜索、问题解答和检索系统。课程结束时，您将能够使用 Python 以及 Flask 和 Gradio 等框架设计和构建全栈多模态 AI 解决方案。如果您希望获得构建下一代 AI 应用程序所需的技能，请立即报名，为您的 AI 职业生涯增添动力！

本模块深入介绍多模态人工智能，重点关注人工智能系统如何处理和整合多种数据类型，包括文本、语音和图像。您将探索多模态人工智能的核心概念和面临的一些挑战，掌握文本和语音处理技术的基础技能。通过动手实验，您将把人工智能驱动的讲故事、语音到文本转录和文本到语音合成应用到现实世界的应用中，例如人工智能生成的有声读物和自动会议助理。

涵盖的内容

5个视频2篇阅读材料2个作业2个应用程序项目6个插件

5个视频总计34分钟

视频：课程介绍5分钟
RAG 和 Agentic AI 专业证书概述6分钟
多模态人工智能简介8分钟
文本到语音技术8分钟
语音转文本技术7分钟

2篇阅读材料总计5分钟

阅读课程概述3分钟
阅读：摘要和要点2分钟

2个作业总计36分钟

练习测验：多模态人工智能入门：文本和语音处理15分钟
分级测验：多模态 AI 基础21分钟

2个应用程序项目总计75分钟

实验室：使用 Mistral 和 gTTS 创建您的个人故事讲述者30分钟
实验室：使用 Whisper、LangChain 和 Gradio 构建会议助手45分钟

6个插件总计32分钟

完成课程的有用提示3分钟
阅读：什么是多模态生成式人工智能？5分钟
阅读什么是计算机视觉？7分钟
阅读：文本处理、语音处理和文本到语音7分钟
阅读：多模态人工智能集成的挑战5分钟
小抄：多模态人工智能基础5分钟

本 Modulation 探索人工智能流程如何通过将图像和视频与文本进行 Data Integrity 来生成 Visual 数据。您将研究文本到图像/图像到文本和文本到视频/视频到文本模型、图像字幕以及有效的多模态 AI 系统所需的融合技术。通过动手实验，您将应用 DALL-E 和 Sora 等最先进的模型，根据文本提示生成图像和视频。此外，您还将使用 Meta 的 Llama 4 实现一个图像字幕系统，从而获得将视觉模型和语言模型结合起来进行实际应用的实践经验。

涵盖的内容

2个视频1篇阅读材料2个作业2个应用程序项目3个插件

2个视频总计15分钟

用 Meta's Llama 理解图像标题7分钟
演示：使用 OpenAI 的 Sora 生成文本到视频8分钟

1篇阅读材料总计3分钟

阅读：摘要和要点3分钟

2个作业总计31分钟

图像生成和字幕10分钟
分级测验：整合视觉和视频模式21分钟

2个应用程序项目总计50分钟

实验室DALL-E 图像生成新手指南20分钟
实验室使用 watsonx 和 IBM 的 Granite 构建图像字幕系统30分钟

3个插件总计35分钟

阅读文字转视频和图像转视频技术简介12分钟
阅读：多模态视觉模型在现实场景中的优势、局限和实际应用8分钟
小抄：整合视觉和视频模式15分钟

最后一个 Module 探索先进的多模态 AI 应用，整合图像、文本和基于检索的系统，构建创新解决方案。您将深入学习多模态检索和搜索、多模态问题解答（QA）和聊天机器人，了解跨模态检索技术如何增强搜索引擎和推荐系统。此外，您还将学习如何整合 Visualization 和文本数据来改进聊天机器人的交互。通过动手实验，您将运用最先进的模型和框架，使用 Flask 构建具有多模态功能的全功能网络应用程序。