在本课程中,您将学习如何解决大型、高维和潜在无限状态空间的问题。您将看到,估算价值函数可以被视为一个监督学习问题--函数逼近--允许您构建能够仔细平衡泛化和辨别的代理,以获得最大回报。我们将从研究如何将蒙特卡罗和 TD 等策略评估或预测方法扩展到函数近似设置开始这一旅程。您将学习 RL 的特征构建技术,以及通过神经网络和反推进行表征学习。最后,我们将深入探讨策略梯度方法,这是一种无需学习值函数就能直接学习策略的方法。在本课程中,您将解决两个连续状态控制任务,并研究策略梯度方法在连续动作环境中的优势。
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有5个模块
欢迎来到强化学习专业的第三门课程:由阿尔伯塔大学、Onlea 和 Coursera 联合开设。在本课前模块中,您将认识您的讲师,并了解本课程的内容。请务必在 "见面和问候 "部分向同学们介绍自己!
涵盖的内容
2个视频2篇阅读材料1个讨论话题
本周您将学习如何在状态数远大于代理可用内存的情况下,估算给定策略的价值函数。您将学习如何指定价值函数的参数形式、如何指定目标函数,以及如何利用梯度下降估算法来估算与世界交互的价值。
涵盖的内容
13个视频2篇阅读材料1个作业1个编程作业1个讨论话题
用于构建代理价值估计的特征可能是成功的学习系统中最关键的部分。在本模块中,我们将讨论构建特征的两种基本策略:(1) 形成输入详尽分区的固定基础,以及 (2) 通过神经网络和反向传播,在代理与世界交互时调整特征。在本周的评分评估中,您将使用神经网络和 TD 学习来解决一个简单但无限的状态预测任务。
涵盖的内容
11个视频2篇阅读材料1个作业1个编程作业1个讨论话题
本周,您将看到模块二和模块三中介绍的概念和工具可以将经典 TD 控制方法直接扩展到函数逼近设置中。特别是,您将学习如何通过简单地将半梯度 TD 方法与广义策略迭代相结合,在无穷状态 MDPs 中找到最优策略,从而产生 Q-learning 和 Sarsa 等经典控制方法。最后,我们将讨论 RL 的新问题表述--平均报酬--它无疑将在未来 RL 的许多应用中得到应用。
涵盖的内容
7个视频2篇阅读材料1个作业1个编程作业2个讨论话题
迄今为止,你所学到的每一种算法都会估算出一个值函数,作为实现找到最优策略这一目标的中间步骤。另一种策略是直接学习策略参数。本周你将了解这些策略梯度方法,以及它们与基于值函数的方法相比的优势。您还将了解如何使用策略梯度法在具有连续状态和行动空间的任务中找到最优策略。
涵盖的内容
11个视频2篇阅读材料1个作业1个编程作业1个讨论话题
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师


从 机器学习 浏览更多内容
- 状态:免费试用
University of Alberta
- 状态:免费试用
University of Colorado Boulder
- 状态:免费试用
University of Alberta
- 状态:免费试用
University of Alberta
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
842 条评论
- 5 stars
84.59%
- 4 stars
12.20%
- 3 stars
2.13%
- 2 stars
0.71%
- 1 star
0.35%
显示 3/842 个
已于 Nov 9, 2019审阅
Great course. Slightly more complex than courses 1 and 2, but a huge improvement in terms of applicability to real-world situations.
已于 May 31, 2020审阅
I had been reading the book of Reinforcement Learning An Introduction by myself. This class helped me to finish the study with a great learning environment. Thank you, Martha and Adam!
已于 Aug 13, 2020审阅
Adam & Martha really make the walk through Sutton & Barto's book a real pleasure and easy to understand. The notebooks and the practice quizzes greatly help to consolidate the material.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问专项课程中的所有课程,完成作业后还可以获得证书。您的电子证书将添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
是的。在特定的学习课程中,如果您付不起注册费,可以申请助学金或奖学金。如果您选择的学习课程有助学金或奖学金,您可以在说明页面找到申请链接。
更多问题
提供助学金,