决策和强化学习

决策和强化学习

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

位教师：Tony Dear

4,460 人已注册

包含在中

了解更多

8个模块

深入了解一个主题并学习基础知识。

23 条评论

中级等级

推荐体验

5 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

8个模块

深入了解一个主题并学习基础知识。

23 条评论

中级等级

推荐体验

5 周完成

在 10 小时一周

灵活的计划

自行安排学习进度

您将学到什么

定性偏好与适当的定量效用之间的映射。
分别用多臂强盗问题和马尔可夫决策过程来模拟非关联和关联顺序决策问题
实施动态编程算法，找到最佳政策
使用蒙特卡罗和时差法实施基本的强化学习算法

您将获得的技能

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

8 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

该课程共有8个模块

本课程介绍顺序决策和强化学习。我们首先讨论效用理论，学习如何在决策过程中表示和模拟偏好。我们首先将简单的决策问题建模为多臂强盗问题，并讨论评估反馈的几种方法。然后，我们将把决策问题建模为有限马尔可夫决策过程（MDP），并通过动态编程算法讨论其解决方案。我们还将讨论实际问题中的部分可观测性概念，这些问题以 POMDPs 为模型，然后通过在线规划方法加以解决。最后，我们介绍了强化学习问题，并讨论了两种范例：蒙特卡罗方法和时差学习。在课程的最后，我们将指出这两种范例如何位于 n 步时差方法的频谱上。强调算法和示例将是本课程的关键部分。

欢迎来到《决策与强化学习》！本周，Tony Dear 教授将为您介绍课程概况。您还将看到支持您学习顺序决策问题建模和实施强化学习算法的指南。

涵盖的内容

6个视频6篇阅读材料1个作业1个编程作业3个讨论话题1个插件

6个视频总计39分钟

决策和强化学习简介 2分钟
课程后勤 3分钟
1.1 理性代理与效用理论 9分钟
1.2 偏好与效用理论公理 9分钟
1.3 不确定性和多属性公用事业 10分钟
1.4 完美信息的价值 7分钟

6篇阅读材料总计60分钟

课程大纲 10分钟
关于讲师 10分钟
学术诚信政策 10分钟
论坛礼仪 10分钟
课前调查 10分钟
第一周课程材料 10分钟

1个作业总计30分钟

效用理论 30分钟

1个编程作业总计180分钟

效用理论 180分钟

3个讨论话题总计30分钟

自我介绍！ 10分钟
关于效用理论的讨论 10分钟
第一周问题与反馈 10分钟

1个插件总计15分钟

课前调查 15分钟

欢迎来到第 2 周！本周，我们将学习多臂强盗问题，这是一种优化问题，算法在探索和利用之间取得平衡，以获得最大回报。主题包括行动值和样本平均估算、𝜀-贪婪行动选择和置信上限。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

3个视频1篇阅读材料1个作业1个编程作业2个讨论话题

3个视频总计36分钟

2.1 多武装强盗和行动价值 9分钟
2.2 Ɛ-贪婪行动选择 13分钟
2.3 置信上限 14分钟

1篇阅读材料总计10分钟

第 2 周课程材料 10分钟

1个作业总计30分钟

多臂强盗问题 30分钟

1个编程作业总计180分钟

多臂强盗问题 180分钟

2个讨论话题总计20分钟

关于多臂强盗的讨论 10分钟
第 2 周问题与反馈 10分钟

欢迎来到第 3 周！本周，我们将重点学习马尔可夫决策过程的基础知识，包括奖励、效用、贴现、策略、价值函数和贝尔曼方程。您将对顺序决策问题进行建模，了解奖励和贴现因素对结果的影响，定义策略和价值函数，并写出最优解的贝尔曼方程。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

6个视频1篇阅读材料1个作业1个编程作业3个讨论话题

6个视频总计36分钟

3.1 马尔可夫决策过程框架 4分钟
3.2 网格世界示例 8分钟
3.3 奖励、公用事业和折扣 7分钟
3.4 政策和价值函数 6分钟
3.5 示例：迷你网格世界 5分钟
3.6 贝尔曼最优方程 4分钟

1篇阅读材料总计10分钟

第 3 周课程材料 10分钟

1个作业总计30分钟

顺序决策问题 30分钟

1个编程作业总计180分钟

贝尔曼方程 180分钟

3个讨论话题总计30分钟

顺序决策问题讨论 - 第一部分 10分钟
顺序决策问题讨论 - 第二部分 10分钟
第 3 周问题与反馈 10分钟

欢迎来到第 4 周！本周，我们将介绍求解马尔可夫决策过程（MDP）的动态编程算法。主题包括值迭代和策略迭代、非线性贝尔曼方程、复杂性和收敛性，以及两种方法的比较。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

6个视频1篇阅读材料1个作业2个编程作业3个讨论话题

6个视频总计42分钟

4.1 时间限制值 8分钟
4.2 价值迭代 7分钟
4.3 价值迭代实施 8分钟
4.4 政策迭代 9分钟
4.5 示例：迷你网格世界 4分钟
4.6 算法复杂性 7分钟

1篇阅读材料总计10分钟

第 4 周课程材料 10分钟

1个作业总计30分钟

马尔可夫决策过程 30分钟

2个编程作业总计360分钟

价值迭代 180分钟
政策迭代 180分钟

3个讨论话题总计35分钟

关于马尔可夫决策过程的讨论 15分钟
关于政策迭代与价值迭代的讨论 10分钟
第四周的问题和反馈 10分钟

欢迎来到第 5 周！本周，我们将学习部分可观测性和 POMDPs、信念状态、信念 MDPs 表示以及 MDPs 和 POMDPs 中的在线规划等主题。您还将运用所学知识更新信念状态，并使用信念转换函数计算状态值。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

5个视频2篇阅读材料1个作业1个编程作业3个讨论话题

5个视频总计35分钟

5.1 部分可观测性和 POMDP 5分钟
5.2 个信念状态 9分钟
5.3 信仰转换模型 7分钟
5.4 政策和价值函数 10分钟
5.5 示例：迷你网格世界 5分钟

2篇阅读材料总计20分钟

第 5 周课程材料 10分钟
第 3、4 和 5 周总结 10分钟

1个作业总计30分钟

POMDPs 30分钟

1个编程作业总计180分钟

POMDPs 180分钟

3个讨论话题总计35分钟

关于 POMDP 的讨论 - 第一部分 15分钟
关于 POMDP 的讨论 - 第二部分 10分钟
第 5 周问题与反馈 10分钟

欢迎来到第 6 周！本周，我们将介绍蒙特卡罗方法，内容包括使用样本平均法和蒙特卡罗预测进行状态值估计、状态-作用值和ε-贪婪策略，以及用于非策略与策略蒙特卡罗控制的重要性采样。您将学会估算状态值、状态-行动值、使用重要性采样，以及为优化策略学习实施非策略蒙特卡洛控制。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

6个视频2篇阅读材料1个作业1个编程作业2个讨论话题

6个视频总计42分钟

6.1 蒙特卡罗方法 5分钟
6.2 首次访问 MC 预测 7分钟
6.3 国家行动价值观 5分钟
6.4 Ɛ-贪婪的政策性 MC 控制 8分钟
6.5 开启和关闭政策 MC 控制 7分钟
6.6 示例：迷你网格世界 9分钟

2篇阅读材料总计20分钟

第 6 周课程材料 10分钟
课后阅读 10分钟

1个作业总计30分钟

蒙地卡罗 RL 30分钟

1个编程作业总计180分钟

蒙特卡洛 180分钟

2个讨论话题总计20分钟

关于蒙特卡洛模型的讨论 10分钟
第 6 周问题与反馈 10分钟

欢迎来到第 7 周！本周，我们将讨论与用于预测的时差学习、TD 批量方法、用于策略控制的 SARSA 和用于非策略控制的 Q-learning 相关的主题。您将学习如何实现时差预测、时差批处理和离线方法、SARSA 和 Q-learning，并比较政策内和政策外时差学习。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

5个视频2篇阅读材料1个作业3个编程作业2个讨论话题

5个视频总计35分钟

7.1 时差学习 7分钟
7.2 时差预测 6分钟
7.3 批量更新 5分钟
7.4 TD 控制学习 8分钟
7.5 SARSA 与 Q-Learning 9分钟

2篇阅读材料总计20分钟

第 7 周课程材料 10分钟
课后阅读 10分钟

1个作业总计30分钟

时差学习 30分钟

3个编程作业总计420分钟

井字游戏 60分钟
Q-Learning 180分钟
SARSA 180分钟

2个讨论话题总计20分钟

关于时差法的讨论 10分钟
第 7 周问题与反馈 10分钟

欢迎来到第 8 周！本模块包括 n 步时差预测、n 步 SARSA（策略上和策略下）、使用 Dyna-Q 的基于模型的 RL 以及函数逼近。您将准备好实施 n 步时差学习、n 步 SARSA、基于模型学习的 Dyna-Q，并使用函数逼近进行强化学习。您将在冰冻湖编程环境中应用所学知识。如果您在测验和作业方面需要帮助，可以在讨论区发帖。

涵盖的内容

4个视频3篇阅读材料1个作业1个编程作业2个讨论话题1个插件

4个视频总计39分钟

8.1 𝑛 步时差预测 11分钟
8.2 𝑛 步 SARSA 9分钟
8.3 基于模型的方法 8分钟
8.4 函数近似 12分钟

3篇阅读材料总计30分钟

第 8 周课程材料 10分钟
课后阅读 10分钟
课后调查 10分钟

1个作业总计30分钟

表格方法的一般化 30分钟

1个编程作业总计180分钟

冰冻湖 180分钟

2个讨论话题总计25分钟

日常生活中的强化学习 15分钟
第 8 周问题与反馈 10分钟

1个插件总计15分钟

课后调查 15分钟

位教师

授课教师评分

(6个评价)

Tony Dear

Columbia University

1 门课程 4,460 名学生

提供方

Columbia University

从算法浏览更多内容

University of Alberta
Fundamentals of Reinforcement Learning
课程
New York University
Reinforcement Learning in Finance
课程
Simplilearn
Fundamental of Reinforcement Training
课程
University of Alberta
Sample-based Learning Methods
课程

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

自 2018开始学习的学生

''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情，我就可以学习。'

Jennifer J.

自 2020开始学习的学生

''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.

自 2021开始学习的学生

''如果我的大学不提供我需要的主题课程，Coursera 便是最好的去处之一。'

Chaitanya A.

''学习不仅仅是在工作中做的更好：它远不止于此。Coursera 让我无限制地学习。'

学生评论

5 stars
65.21%
4 stars
21.73%
3 stars
0%
2 stars
8.69%
1 star
4.34%

显示 3/23 个

已于 Jan 20, 2024审阅

Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!

已于 Jul 9, 2023审阅

Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.

查看更多评论