使用 Proximal Policy Optimization (PPO)与 Hugging Face 建立评分函数并对数据集进行 Tokening 微调
您将获得的技能
类别:Fine-tuning
Fine-tuning
类别:Model Optimization
Model Optimization
类别:Reinforcement Learning
Reinforcement Learning
类别:Large Language Modeling
Large Language Modeling
类别:Machine Learning Methods
Machine Learning Methods
类别:Model Evaluation
Model Evaluation
类别:Model Training
Model Training
类别:Generative Model Architectures
Generative Model Architectures
您将学习的工具
类别:Generative AI
Generative AI
要了解的详细信息
可分享的证书
添加到您的领英档案
作业
5 项作业
授课语言:英语(English)
积累特定领域的专业知识
此课程作为 的一部分提供
在注册此课程时,您还需要选择一个特定的合作项目。
向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书
该课程共有2个模块
"微调 Large Language Model(LLM)对于使其符合特定业务需求、提高准确性和优化性能至关重要。在当今 AI 驱动的世界中,企业依靠微调模型来生成精确、可操作的见解,从而推动创新和效率。本课程让有抱负的 Generative AI 工程师掌握雇主们积极寻求的紧缺技能。 您将探索因果 LLM 的高级微调技术,包括指令调整、奖励建模和直接偏好优化。了解 LLM 如何作为生成响应的概率策略,以及如何使用抱抱脸等工具使其与人类偏好保持一致。您将深入学习奖励计算、来自人类反馈的强化学习(RLHF)、近似策略优化(PPO)、PPO 训练器和直接偏好优化(DPO)的最佳策略。 课程中的实践实验室将提供指令调整、奖励建模、PPO 和 DPO 的实际经验,让您能够自信地微调 LLM,以实现具有重大影响的应用。 在短短两周内,掌握可胜任工作的 Generative AI 技能!今天就报名,推动您在 AI 领域的职业发展!"
在本模块中,您将探索通过指令调整和奖励建模来微调 Large Language Model (LLM) 的高级技术。首先,您将定义指令调整并学习其过程,包括数据集加载、文本生成管道和使用拥抱脸训练参数。然后,您将深入学习奖励建模,在此过程中,您将预处理数据集,应用低阶适应(LoRA)配置,并量化质量响应,以指导模型优化并与人类偏好保持一致。您还将描述并使用奖励训练器和奖励模型损失函数。此外,实践实验室将通过指令调整和奖励模型的实际经验来强化您的学习,使您能够有效地为目标任务定制 LLM。