生成式人工智能推进 LLM 的微调

生成式人工智能推进 LLM 的微调

本课程是多个项目的一部分。

位教师：Joseph Santarcangelo

访问权限由 New York State Department of Labor 提供

21,723 人已注册

2个模块

深入了解一个主题并学习基础知识。

126 条评论

中级等级

推荐体验

9 小时完成

灵活的计划

自行安排学习进度

2个模块

深入了解一个主题并学习基础知识。

126 条评论

中级等级

推荐体验

9 小时完成

灵活的计划

自行安排学习进度

您将学到什么

雇主们正在积极寻求的生成 AI 工程技能的微调法学硕士
使用抱抱脸进行指令调整和奖励建模，以及将 LLM 理解为策略并应用 RLHF 技术
带分区函数和拥抱面的直接偏好优化（DPO），包括如何定义 DPO 问题的最优解
使用 Proximal Policy Optimization (PPO)与 Hugging Face 建立评分函数并对数据集进行 Tokening 微调

您将获得的技能

您将学习的工具

Generative AI

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

5 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为的一部分提供

在注册此课程时，您还需要选择一个特定的合作项目。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有2个模块

"微调 Large Language Model（LLM）对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中，企业依靠微调模型来生成精确、可操作的见解，从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。您将探索因果 LLM 的高级微调技术，包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略，以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习（RLHF）、近似策略优化（PPO）、PPO 训练器和直接偏好优化（DPO）的最佳策略。课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验，让您能够自信地微调 LLM，以实现具有重大影响的应用。在短短两周内，掌握可胜任工作的 Generative AI 技能！今天就报名，推动您在 AI 领域的职业发展！"

在本模块中，您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先，您将定义指令调整并学习其过程，包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后，您将深入学习奖励建模，在此过程中，您将预处理数据集，应用低阶适应（LoRA）配置，并量化质量响应，以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外，实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习，使您能够有效地为目标任务定制 LLM。

涵盖的内容

6个视频4篇阅读材料2个作业2个应用程序项目3个插件

6个视频总计36分钟

课程介绍3分钟
指令调谐基础知识7分钟
指导--用拥抱脸进行调音7分钟
奖励模型：响应评估5分钟
奖励模式培训7分钟
用拥抱的表情奖励模型8分钟

4篇阅读材料总计18分钟

课程概览3分钟
专业概述10分钟
教学调整大型语言模型的最佳做法3分钟
摘要和要点2分钟

2个作业总计30分钟

练习测验：指令调整和奖励模型9分钟
教学调整的不同方法21分钟

2个应用程序项目总计150分钟

指令微调 LLM90分钟
实验室奖励模型60分钟

3个插件总计35分钟

完成课程的有用提示5分钟
指令调谐15分钟
奖励模型与响应评估15分钟

在本模块中，您将探索使用人类反馈强化学习（RLHF）、近似策略优化（PPO）和直接偏好优化（DPO）对大型语言模型（LLM）进行微调的高级技术。首先，您将介绍 LLM 如何作为概率分布发挥作用，以及如何将这些概率分布转化为策略，从而根据输入文本生成响应。您将研究策略和语言模型之间作为参数（如欧米茄）函数的关系，以及如何利用人类反馈计算奖励。这包括训练回复样本、评估代理性能，以及使用 PPO 为情感分析等任务定义评分函数。您还将能够解释 PPO 配置、学习率以及 PPO 培训师在使用抱抱脸工具优化聊天机器人回复中的作用。该模块还将进一步介绍 DPO，这是一种更直接、更高效的方法，可使模型与人类偏好保持一致。虽然介绍了 PPO 和强化学习等复杂的主题，但并不要求您在本课程中深入理解这些主题。本模块中的上机实验将让您练习应用 RLHF 和 DPO。为支持您的学习，本模块还提供了小抄和术语表，供您快速参考。

涵盖的内容

10个视频5篇阅读材料3个作业2个应用程序项目4个插件

10个视频总计59分钟

作为分布的大型语言模型 (LLM)7分钟
从分配到政策4分钟
从人类反馈中强化学习（RLHF）8分钟
近端策略优化 (PPO)5分钟
带拥抱表情的 PPO4分钟
PPO 培训师6分钟
DPO：分区功能6分钟
DPO：最佳解决方案8分钟
从最优政策到 DPO6分钟
带拥抱表情的 DPO5分钟

5篇阅读材料总计18分钟

摘要和要点4分钟
摘要和要点3分钟
课程总结6分钟
祝贺和下一步行动3分钟
课程团队的感谢2分钟

3个作业总计61分钟

实践测验：近端策略优化 (PPO)21分钟
实践测验：直接偏好优化 (DPO)10分钟
利用人类反馈和直接偏好微调因果 LLM30分钟

2个应用程序项目总计75分钟

实验室利用 PPO 从人类反馈中进行强化学习30分钟
实验室利用拥抱脸进行直接偏好优化 (DPO)45分钟

4个插件总计60分钟

对数派生技巧15分钟
利用 InstructLab 在本地微调 LLM15分钟
小抄：面向法学硕士的生成 AI 高级微调技术15分钟
术语表生成式 AI 推进 LLM 的微调工作15分钟

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分

(15个评价)

Joseph Santarcangelo

IBM

37 门课程2,424,852 名学生

提供方

IBM

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

自 2018开始学习的学生

''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情，我就可以学习。'

Jennifer J.

自 2020开始学习的学生

''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.

自 2021开始学习的学生

''如果我的大学不提供我需要的主题课程，Coursera 便是最好的去处之一。'

Chaitanya A.

''学习不仅仅是在工作中做的更好：它远不止于此。Coursera 让我无限制地学习。'

学生评论

5 stars
74.21%
4 stars
8.59%
3 stars
3.90%
2 stars
4.68%
1 star
8.59%

显示 3/126 个

已于 Mar 10, 2025审阅

Great course, love the deep-rooted content. All my concepts are so clear now. Kudos!!

已于 Mar 10, 2025审阅

Very Informative – Covers advanced fine-tuning techniques in a clear and structured way

已于 Mar 10, 2025审阅

This course is a great resource for learners, providing deep insights and practical skills in fine-tuning large language models for advanced AI applications.

查看更多评论