在本课程中,您将学习如何解决大型、高维和潜在无限状态空间的问题。您将看到,估算价值函数可以被视为一个监督学习问题--函数逼近--允许您构建能够仔细平衡泛化和辨别的代理,以获得最大回报。我们将从研究如何将蒙特卡罗和 TD 等策略评估或预测方法扩展到函数近似设置开始这一旅程。您将学习 RL 的特征构建技术,以及通过神经网络和反推进行表征学习。最后,我们将深入探讨策略梯度方法,这是一种无需学习值函数就能直接学习策略的方法。在本课程中,您将解决两个连续状态控制任务,并研究策略梯度方法在连续动作环境中的优势。
通过 Coursera Plus 提高技能,仅需 239 美元/年(原价 399 美元)。立即节省


要了解的详细信息

添加到您的领英档案
4 项作业
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有5个模块
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师


从 机器学习 浏览更多内容

University of Alberta

University of Alberta

University of Alberta
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
84.55%
- 4 stars
12.26%
- 3 stars
2.12%
- 2 stars
0.70%
- 1 star
0.35%
显示 3/846 个
已于 Nov 9, 2019审阅
Great course. Slightly more complex than courses 1 and 2, but a huge improvement in terms of applicability to real-world situations.
已于 Jun 24, 2020审阅
Surely a level-up from the previous courses. This course adds to and extends what has been learned in courses 1 & 2 to a greater sphere of real-world problems. Great job Prof. Adam and Martha!
已于 May 31, 2020审阅
I had been reading the book of Reinforcement Learning An Introduction by myself. This class helped me to finish the study with a great learning environment. Thank you, Martha and Adam!






