我需要什么特定的软件或工具才能顺利完成课程吗？

<text variant="body1">只需使用现代网络浏览器即可完成本课程和所有动手实验。您将免费获得完成实验所需的云环境 Accessibility。

我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

订阅此证书能得到什么？

注册课程后，您就可以访问证书中的所有课程，并在完成作业后获得证书。您的电子证书将被添加到您的 "成就 "页面--在那里，您可以打印证书或将其添加到您的 LinkedIn 个人资料中。

生成式人工智能对 LLM 进行高级微调

Coursera PlusMonthly 3 个月课程4 折优惠 ，让你轻松掌握闪耀技能。立即节省

生成式人工智能对 LLM 进行高级微调

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

本课程是多个项目的一部分。

位教师：Joseph Santarcangelo

22,726 人已注册

包含在中

了解更多

2个模块

深入了解一个主题并学习基础知识。

130 条评论

中级等级

推荐体验

9 小时完成

灵活的计划

自行安排学习进度

2个模块

深入了解一个主题并学习基础知识。

130 条评论

中级等级

推荐体验

9 小时完成

灵活的计划

自行安排学习进度

您将学到什么

雇主们正在积极寻求的生成 AI 工程技能的微调法学硕士
使用抱抱脸进行指令调整和奖励建模，以及将 LLM 理解为策略并应用 RLHF 技术
带分区函数和拥抱面的直接偏好优化（DPO），包括如何定义 DPO 问题的最优解
使用 Proximal Policy Optimization (PPO)与 Hugging Face 建立评分函数并对数据集进行 Tokening 微调

您将获得的技能

您将学习的工具

生成式人工智能

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

5 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为的一部分提供

在注册此课程时，您还需要选择一个特定的合作项目。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有2个模块

"微调 Large Language Model（LLM）对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中，企业依靠微调模型来生成精确、可操作的见解，从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。您将探索因果 LLM 的高级微调技术，包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略，以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习（RLHF）、近似策略优化（PPO）、PPO 训练器和直接偏好优化（DPO）的最佳策略。课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验，让您能够自信地微调 LLM，以实现具有重大影响的应用。在短短两周内，掌握可胜任工作的 Generative AI 技能！今天就报名，推动您在 AI 领域的职业发展！"

在本模块中，您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先，您将定义指令调整并学习其过程，包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后，您将深入学习奖励建模，在此过程中，您将预处理数据集，应用低阶适应（LoRA）配置，并量化质量响应，以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外，实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习，使您能够有效地为目标任务定制 LLM。

涵盖的内容

6个视频4篇阅读材料2个作业2个应用程序项目3个插件

6个视频总计36分钟

课程介绍3分钟
指令调谐基础知识7分钟
指导--用拥抱脸进行调音7分钟
奖励模型：响应评估5分钟
奖励模式培训7分钟
用拥抱的表情奖励模型8分钟

4篇阅读材料总计18分钟

课程概览3分钟
专业概述10分钟
教学调整大型语言模型的最佳做法3分钟
摘要和要点2分钟

2个作业总计30分钟

教学调整的不同方法21分钟
练习测验：指令调整和奖励模型9分钟

2个应用程序项目总计150分钟

指令微调 LLM90分钟
实验室奖励模型60分钟

3个插件总计35分钟

完成课程的有用提示5分钟
指令调谐15分钟
奖励模型与响应评估15分钟

在本模块中，您将探索使用人类反馈强化学习（RLHF）、近似策略优化（PPO）和直接偏好优化（DPO）对大型语言模型（LLM）进行微调的高级技术。首先，您将介绍 LLM 如何作为概率分布发挥作用，以及如何将这些概率分布转化为策略，从而根据输入文本生成响应。您将研究策略和语言模型之间作为参数（如欧米茄）函数的关系，以及如何利用人类反馈计算奖励。这包括训练回复样本、评估代理性能，以及使用 PPO 为情感分析等任务定义评分函数。您还将能够解释 PPO 配置、学习率以及 PPO 培训师在使用抱抱脸工具优化聊天机器人回复中的作用。该模块还将进一步介绍 DPO，这是一种更直接、更高效的方法，可使模型与人类偏好保持一致。虽然介绍了 PPO 和强化学习等复杂的主题，但并不要求您在本课程中深入理解这些主题。本模块中的上机实验将让您练习应用 RLHF 和 DPO。为支持您的学习，本模块还提供了小抄和术语表，供您快速参考。