完成专业学习需要多长时间？

完成该课程大约需要 3-5 个小时，因此您只需两周时间就能掌握给雇主留下深刻印象所需的就业技能！

要顺利完成本课程，我是否需要任何背景知识？

<text variant="body1">本课程属于中级水平，因此要想获得最大的学习效果，您必须掌握 Python、大型语言模型 (LLM)、强化学习和指令调谐的基本知识。您还应该熟悉机器学习和神经网络的概念。

哪些角色将受益于我在本课程中掌握的技能？

本课程是具有 LLMs 的 Generative AI Engineering 专项课程的一部分。完成专项课程后，您将具备胜任 AI 工程师、数据科学家、机器学习工程师、深度学习工程师、AI 工程师以及寻求与 LLMs 合作的开发人员等工作角色的技能和信心。

我需要什么特定的软件或工具才能顺利完成课程吗？

<text variant="body1">只需使用现代网络浏览器即可完成本课程和所有动手实验。您将免费获得完成实验所需的云环境 Accessibility。

我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

订阅此证书能得到什么？

注册课程后，您就可以访问证书中的所有课程，并在完成作业后获得证书。您的电子证书将被添加到您的 "成就 "页面--在那里，您可以打印证书或将其添加到您的 LinkedIn 个人资料中。

生成式人工智能对 LLM 进行高级微调

生成式人工智能对 LLM 进行高级微调

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

本课程是多个项目的一部分。

位教师：Joseph Santarcangelo另外 3 个

23,214 人已注册

包含在中

2个模块

深入了解一个主题并学习基础知识。

132 条评论

中级等级

推荐体验

灵活的计划

9 小时完成

自行安排学习进度

88%

大多数学生喜欢此课程

2个模块

深入了解一个主题并学习基础知识。

132 条评论

中级等级

推荐体验

灵活的计划

9 小时完成

自行安排学习进度

88%

大多数学生喜欢此课程

您将学到什么

雇主们正在积极寻求的生成 AI 工程技能的微调法学硕士
使用抱抱脸进行指令调整和奖励建模，以及将 LLM 理解为策略并应用 RLHF 技术
带分区函数和拥抱面的直接偏好优化（DPO），包括如何定义 DPO 问题的最优解
使用 Proximal Policy Optimization (PPO)与 Hugging Face 建立评分函数并对数据集进行 Tokening 微调

您将获得的技能

类别：Fine-tuning
类别：Model Optimization
类别：Reinforcement Learning
类别：Large Language Modeling
类别：Machine Learning Methods
类别：Model Evaluation
类别：Model Training
类别：Generative Model Architectures

您将学习的工具

类别：Generative AI

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

5 项作业

授课语言：英语（English）

积累特定领域的专业知识

此课程作为的一部分提供

在注册此课程时，您还需要选择一个特定的合作项目。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有2个模块

"微调 Large Language Model（LLM）对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中，企业依靠微调模型来生成精确、可操作的见解，从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。您将探索因果 LLM 的高级微调技术，包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略，以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习（RLHF）、近似策略优化（PPO）、PPO 训练器和直接偏好优化（DPO）的最佳策略。课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验，让您能够自信地微调 LLM，以实现具有重大影响的应用。在短短两周内，掌握可胜任工作的 Generative AI 技能！今天就报名，推动您在 AI 领域的职业发展！"

单元详情

在本模块中，您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先，您将定义指令调整并学习其过程，包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后，您将深入学习奖励建模，在此过程中，您将预处理数据集，应用低阶适应（LoRA）配置，并量化质量响应，以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外，实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习，使您能够有效地为目标任务定制 LLM。

涵盖的内容

6个视频4篇阅读材料2个作业2个应用程序项目3个插件

6个视频总计36分钟

课程介绍3分钟
指令调谐基础知识7分钟
指导--用拥抱脸进行调音7分钟
奖励模型：响应评估5分钟
奖励模式培训7分钟
用拥抱的表情奖励模型8分钟

4篇阅读材料总计18分钟

课程概览3分钟
专业概述10分钟
教学调整大型语言模型的最佳做法3分钟
摘要和要点2分钟

2个作业总计30分钟

教学调整的不同方法21分钟
练习测验：指令调整和奖励模型9分钟

2个应用程序项目总计150分钟

指令微调 LLM90分钟
实验室奖励模型60分钟

3个插件总计35分钟

完成课程的有用提示5分钟
指令调谐15分钟
奖励模型与响应评估15分钟

在本模块中，您将探索使用人类反馈强化学习（RLHF）、近似策略优化（PPO）和直接偏好优化（DPO）对大型语言模型（LLM）进行微调的高级技术。首先，您将介绍 LLM 如何作为概率分布发挥作用，以及如何将这些概率分布转化为策略，从而根据输入文本生成响应。您将研究策略和语言模型之间作为参数（如欧米茄）函数的关系，以及如何利用人类反馈计算奖励。这包括训练回复样本、评估代理性能，以及使用 PPO 为情感分析等任务定义评分函数。您还将能够解释 PPO 配置、学习率以及 PPO 培训师在使用抱抱脸工具优化聊天机器人回复中的作用。该模块还将进一步介绍 DPO，这是一种更直接、更高效的方法，可使模型与人类偏好保持一致。虽然介绍了 PPO 和强化学习等复杂的主题，但并不要求您在本课程中深入理解这些主题。本模块中的上机实验将让您练习应用 RLHF 和 DPO。为支持您的学习，本模块还提供了小抄和术语表，供您快速参考。

涵盖的内容

10个视频5篇阅读材料3个作业2个应用程序项目4个插件

10个视频总计59分钟

作为分布的大型语言模型 (LLM)7分钟
从分配到政策4分钟
从人类反馈中强化学习（RLHF）8分钟
近端策略优化 (PPO)5分钟
带拥抱表情的 PPO4分钟
PPO 培训师6分钟
DPO：分区功能6分钟
DPO：最佳解决方案8分钟
从最优政策到 DPO6分钟
带拥抱表情的 DPO5分钟

5篇阅读材料总计18分钟

摘要和要点4分钟
摘要和要点3分钟
课程总结6分钟
祝贺和下一步行动3分钟
课程团队的感谢2分钟

3个作业总计61分钟

利用人类反馈和直接偏好微调因果 LLM30分钟
实践测验：近端策略优化 (PPO)21分钟
实践测验：直接偏好优化 (DPO)10分钟

2个应用程序项目总计75分钟

实验室利用 PPO 从人类反馈中进行强化学习30分钟
实验室利用拥抱脸进行直接偏好优化 (DPO)45分钟

4个插件总计60分钟

对数派生技巧15分钟
利用 InstructLab 在本地微调 LLM15分钟
小抄：面向法学硕士的生成 AI 高级微调技术15分钟
术语表生成式 AI 推进 LLM 的微调工作15分钟

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分

(16个评价)

Joseph Santarcangelo

IBM

37 门课程2,470,530 名学生

提供方

IBM

学生评论

5 stars
75.18%
4 stars
8.27%
3 stars
3.75%
2 stars
4.51%
1 star
8.27%

显示 3/132 个

已于 Mar 10, 2025审阅

Great course, love the deep-rooted content. All my concepts are so clear now. Kudos!!

The course gave me a good understanding of fine-tuning LLMs. It made complex topics easy to learn.

Very Informative – Covers advanced fine-tuning techniques in a clear and structured way

生成式人工智能对 LLM 进行高级微调

生成式人工智能对 LLM 进行高级微调

您将学到什么

您将获得的技能

您将学习的工具

要了解的详细信息

积累特定领域的专业知识

该课程共有2个模块

微调的不同方法

涵盖的内容

6个视频总计36分钟

4篇阅读材料总计18分钟

2个作业总计30分钟

2个应用程序项目总计150分钟

3个插件总计35分钟

利用人类反馈和直接偏好微调因果 LLM

涵盖的内容

10个视频总计59分钟

5篇阅读材料总计18分钟

3个作业总计61分钟

2个应用程序项目总计75分钟

4个插件总计60分钟

获得职业证书

位教师

提供方

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.

学生评论

常见问题

Coursera

社区

更多

移动应用程序