"微调 Large Language Model(LLM)对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中,企业依靠微调模型来生成精确、可操作的见解,从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。 您将探索因果 LLM 的高级微调技术,包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略,以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习(RLHF)、近似策略优化(PPO)、PPO 训练器和直接偏好优化(DPO)的最佳策略。 课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验,让您能够自信地微调 LLM,以实现具有重大影响的应用。 在短短两周内,掌握可胜任工作的 Generative AI 技能!今天就报名,推动您在 AI 领域的职业发展!"

生成式 AI 推进 LLM 的微调工作
本课程是多个项目的一部分。
访问权限由 New York State Department of Labor 提供
19,814 人已注册
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有2个模块
在本模块中,您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先,您将定义指令调整并学习其过程,包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后,您将深入学习奖励建模,在此过程中,您将预处理数据集,应用低阶适应(LoRA)配置,并量化质量响应,以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外,实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习,使您能够有效地为目标任务定制 LLM。
涵盖的内容
6个视频4篇阅读材料2个作业2个应用程序项目3个插件
在本模块中,您将探索使用人类反馈强化学习 (RLHF)、近似策略优化 (PPO) 和直接偏好优化 (DPO) 来微调 Large Language Model (LLM) 的高级技术。首先,您将介绍 LLM 如何作为概率分布发挥作用,以及如何将其 Transformer 为策略,从而根据输入文本生成响应。您将研究策略和语言模型之间作为参数(如欧米茄)函数的关系,以及如何利用人类反馈计算奖励。这包括训练回复 Sample、评估代理性能,以及使用 PPO 为 Sentiment Analysis 等任务定义评分函数。您还能解释 PPO 配置、Learning Rate 以及 PPO 培训师在使用抱抱脸工具优化 Chatbot 响应中的作用。Modulation 进一步介绍了 DPO,这是一种更直接、更高效的使模型与人类偏好相一致的方法。虽然介绍了 PPO 和强化学习等复杂的主题,但并不要求您在本课程中深入理解。通过本 Modulation 中的动手实验,您可以练习应用 RLHF 和 DPO。为支持您的学习,本模块还提供了小抄和术语表,供您快速参考。
涵盖的内容
10个视频5篇阅读材料3个作业2个应用程序项目4个插件
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
提供方
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
74.38%
- 4 stars
8.26%
- 3 stars
4.13%
- 2 stars
4.95%
- 1 star
8.26%
显示 3/120 个
已于 Aug 20, 2025审阅
An excellent course with a wealth of high-quality material, featuring highly informative lessons such as DPO and PPO.
已于 Mar 10, 2025审阅
Very Informative – Covers advanced fine-tuning techniques in a clear and structured way
已于 Mar 10, 2025审阅
This course is a great resource for learners, providing deep insights and practical skills in fine-tuning large language models for advanced AI applications.











