本课程介绍顺序决策和强化学习。我们首先讨论效用理论,学习如何在决策过程中表示和模拟偏好。我们首先将简单的决策问题建模为多臂强盗问题,并讨论评估反馈的几种方法。然后,我们将把决策问题建模为有限马尔可夫决策过程(MDP),并通过动态编程算法讨论其解决方案。我们还将讨论实际问题中的部分可观测性概念,这些问题以 POMDPs 为模型,然后通过在线规划方法加以解决。最后,我们介绍了强化学习问题,并讨论了两种范例:蒙特卡罗方法和时差学习。在课程的最后,我们将指出这两种范例如何位于 n 步时差方法的频谱上。强调算法和示例将是本课程的关键部分。
了解顶级公司的员工如何掌握热门技能

该课程共有8个模块
欢迎来到《决策与强化学习》!本周,Tony Dear 教授将为您介绍课程概况。您还将看到支持您学习顺序决策问题建模和实施强化学习算法的指南。
涵盖的内容
6个视频6篇阅读材料1个作业1个编程作业3个讨论话题1个插件
欢迎来到第 2 周!本周,我们将学习多臂强盗问题,这是一种优化问题,算法在探索和利用之间取得平衡,以获得最大回报。主题包括行动值和样本平均估算、𝜀-贪婪行动选择和置信上限。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
3个视频1篇阅读材料1个作业1个编程作业2个讨论话题
欢迎来到第 3 周!本周,我们将重点学习马尔可夫决策过程的基础知识,包括奖励、效用、贴现、策略、价值函数和贝尔曼方程。您将对顺序决策问题进行建模,了解奖励和贴现因素对结果的影响,定义策略和价值函数,并写出最优解的贝尔曼方程。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
6个视频1篇阅读材料1个作业1个编程作业3个讨论话题
欢迎来到第 4 周!本周,我们将介绍求解马尔可夫决策过程(MDP)的动态编程算法。主题包括值迭代和策略迭代、非线性贝尔曼方程、复杂性和收敛性,以及两种方法的比较。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
6个视频1篇阅读材料1个作业2个编程作业3个讨论话题
欢迎来到第 5 周!本周,我们将学习部分可观测性和 POMDPs、信念状态、信念 MDPs 表示以及 MDPs 和 POMDPs 中的在线规划等主题。您还将运用所学知识更新信念状态,并使用信念转换函数计算状态值。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
5个视频2篇阅读材料1个作业1个编程作业3个讨论话题
欢迎来到第 6 周!本周,我们将介绍蒙特卡罗方法,内容包括使用样本平均法和蒙特卡罗预测进行状态值估计、状态-作用值和ε-贪婪策略,以及用于非策略与策略蒙特卡罗控制的重要性采样。您将学会估算状态值、状态-行动值、使用重要性采样,以及为优化策略学习实施非策略蒙特卡洛控制。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
6个视频2篇阅读材料1个作业1个编程作业2个讨论话题
欢迎来到第 7 周!本周,我们将讨论与用于预测的时差学习、TD 批量方法、用于策略控制的 SARSA 和用于非策略控制的 Q-learning 相关的主题。您将学习如何实现时差预测、时差批处理和离线方法、SARSA 和 Q-learning,并比较政策内和政策外时差学习。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
5个视频2篇阅读材料1个作业3个编程作业2个讨论话题
欢迎来到第 8 周!本模块包括 n 步时差预测、n 步 SARSA(策略上和策略下)、使用 Dyna-Q 的基于模型的 RL 以及函数逼近。您将准备好实施 n 步时差学习、n 步 SARSA、基于模型学习的 Dyna-Q,并使用函数逼近进行强化学习。您将在冰冻湖编程环境中应用所学知识。如果您在测验和作业方面需要帮助,可以在讨论区发帖。
涵盖的内容
4个视频3篇阅读材料1个作业1个编程作业2个讨论话题1个插件
位教师

从 算法 浏览更多内容
- 状态:免费试用
University of Alberta
- 状态:免费试用
University of Alberta
- 状态:免费试用
University of Alberta
- 状态:免费试用
New York University
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
20 条评论
- 5 stars
60%
- 4 stars
25%
- 3 stars
0%
- 2 stars
10%
- 1 star
5%
显示 3/20 个
已于 Jan 20, 2024审阅
Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!
已于 Jul 9, 2023审阅
Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
购买证书后,您就可以访问所有课程资料,包括已评分的作业。完成课程后,您的电子证书将添加到您的 "成就 "页面--您可以从那里打印证书或将其添加到您的 LinkedIn 个人资料中。
是的。在特定的学习课程中,如果您付不起注册费,可以申请助学金或奖学金。如果您选择的学习课程有助学金或奖学金,您可以在说明页面找到申请链接。
更多问题
提供助学金,