利用函数逼近进行预测和控制

通过 Coursera Plus 提高技能，仅需 239 美元/年（原价 399 美元）。立即节省

利用函数逼近进行预测和控制

Q: 我什么时候能看到讲座和作业？

要获得课程资料、作业和证书，您需要在注册课程时购买证书体验。 您可以尝试免费试听，或申请资助。课程可能提供 "完整课程，无证书"。通过该选项，您可以查看所有课程资料，提交必要的评估，并获得最终成绩。这也意味着您无法购买证书体验。

本课程是强化学习专项课程的一部分

位教师：Martha White

29,226 人已注册

包含在中

了解更多

5个模块

深入了解一个主题并学习基础知识。

846 条评论

中级等级

推荐体验

灵活的计划

2 周在 10 小时一周

自行安排学习进度

90%

大多数学生喜欢此课程

5个模块

深入了解一个主题并学习基础知识。

846 条评论

中级等级

推荐体验

灵活的计划

2 周在 10 小时一周

自行安排学习进度

90%

大多数学生喜欢此课程

您将获得的技能

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

4 项作业

授课语言：英语（English）

了解顶级公司的员工如何掌握热门技能

了解关于 Coursera for Business 的更多信息

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

本课程是强化学习专项课程专项课程的一部分

在注册此课程时，您还会同时注册此专项课程。

向行业专家学习新概念
获得对主题或工具的基础理解
通过实践项目培养工作相关技能
获得可共享的职业证书

该课程共有5个模块

在本课程中，您将学习如何解决大型、高维和潜在无限状态空间的问题。您将看到，估算价值函数可以被视为一个监督学习问题--函数逼近--允许您构建能够仔细平衡泛化和辨别的代理，以获得最大回报。我们将从研究如何将蒙特卡罗和 TD 等策略评估或预测方法扩展到函数近似设置开始这一旅程。您将学习 RL 的特征构建技术，以及通过神经网络和反推进行表征学习。最后，我们将深入探讨策略梯度方法，这是一种无需学习值函数就能直接学习策略的方法。在本课程中，您将解决两个连续状态控制任务，并研究策略梯度方法在连续动作环境中的优势。

先决条件本课程以课程 1 和课程 2 的基础知识为基础，学习者在开始本课程之前应该已经学完这两门课程。学员还应该熟练掌握概率与期望、基础线性代数、基础微积分、Python 3.0（至少 1 年）以及通过伪代码实现算法。通过本课程的学习，您将能够 -了解如何使用监督学习方法来近似值函数 - 理解函数近似下的预测（值估计）目标 - 使用函数近似（状态聚合）实现 TD、在具有无限状态空间（连续状态空间）的环境中实施具有函数逼近（状态聚合）功能的 TD - 理解特征构建的固定基础和神经网络方法 - 在连续状态环境中实施具有神经网络函数逼近功能的 TD - 理解在转向函数逼近时探索中遇到的新困难 - 在具有无限状态空间（连续状态空间）的环境中实施 TD - 理解特征构建的固定基础和神经网络方法 - 在连续状态环境中实施具有神经网络函数逼近功能的 TD在连续状态控制任务中实施预期 Sarsa 和 Q-learning 与函数逼近 - 理解直接估计策略的目标（策略梯度目标） - 在离散状态环境中实施策略梯度方法（称为 Actor-Critic

欢迎来到强化学习专业的第三门课程：由阿尔伯塔大学、Onlea 和 Coursera 联合开设。在本课前模块中，您将认识您的讲师，并了解本课程的内容。请务必在 "见面和问候 "部分向同学们介绍自己！

涵盖的内容

2个视频2篇阅读材料1个讨论话题

本周您将学习如何在状态数远大于代理可用内存的情况下，估算给定策略的价值函数。您将学习如何指定价值函数的参数形式、如何指定目标函数，以及如何利用梯度下降估算法来估算与世界交互的价值。

涵盖的内容

13个视频2篇阅读材料1个作业1个编程作业1个讨论话题

13个视频总计69分钟

转向参数化函数 7分钟
归纳和辨别 5分钟
将价值估计视为监督学习 4分钟
价值误差目标 4分钟
梯度下降介绍 7分钟
用于政策评估的梯度蒙特 6分钟
蒙特卡洛状态聚合 8分钟
用于政策评估的半梯度 TD 4分钟
带状态聚合的 TD 与蒙特卡罗比较 5分钟
Doina Precup：用强化学习为人工智能代理构建知识 7分钟
线性 TD 更新 4分钟
TD 的真正目标 5分钟
第一周总结 4分钟

2篇阅读材料总计50分钟

模块 1 学习目标 10分钟
每周阅读近似政策预测 40分钟

1个作业总计30分钟

近似政策预测 30分钟

1个编程作业总计120分钟

具有状态聚合功能的半梯度 TD(0) 120分钟

1个讨论话题总计10分钟

良好的控制目标 10分钟

用于构建代理价值估计的特征可能是成功的学习系统中最关键的部分。在本模块中，我们将讨论构建特征的两种基本策略：(1) 形成输入详尽分区的固定基础，以及 (2) 通过神经网络和反向传播，在代理与世界交互时调整特征。在本周的评分评估中，您将使用神经网络和 TD 学习来解决一个简单但无限的状态预测任务。

涵盖的内容

11个视频2篇阅读材料1个作业1个编程作业1个讨论话题

11个视频总计52分钟

粗编码 3分钟
粗编码的泛化特性 5分钟
瓷砖编码 3分钟
在 TD 中使用瓦片编码 5分钟
什么是神经网络？ 3分钟
利用神经网络进行非线性逼近 4分钟
深度神经网络 3分钟
梯度下降训练神经网络 9分钟
NN 的优化策略 5分钟
大卫-西尔弗谈深度学习 + RL = 人工智能？ 9分钟
第二周回顾 2分钟

2篇阅读材料总计50分钟

模块 2 学习目标 10分钟
每周阅读用近似法进行政策预测 II 40分钟

1个作业总计28分钟

构建预测特征 28分钟

1个编程作业总计180分钟

使用神经网络的半梯度 TD 180分钟

1个讨论话题总计10分钟

构建预测特征 10分钟

本周，您将看到模块二和模块三中介绍的概念和工具可以将经典 TD 控制方法直接扩展到函数逼近设置中。特别是，您将学习如何通过简单地将半梯度 TD 方法与广义策略迭代相结合，在无穷状态 MDPs 中找到最优策略，从而产生 Q-learning 和 Sarsa 等经典控制方法。最后，我们将讨论 RL 的新问题表述--平均报酬--它无疑将在未来 RL 的许多应用中得到应用。

涵盖的内容

7个视频2篇阅读材料1个作业1个编程作业2个讨论话题

7个视频总计41分钟

带函数近似的外显 Sarsa 4分钟
山地车中的插曲 Sarsa 5分钟
带函数近似值的期望萨萨 2分钟
函数逼近下的探索 4分钟
平均报酬：提出控制问题的新方法 10分钟
萨廷德-辛格谈内在奖励 13分钟
第三周回顾 3分钟

2篇阅读材料总计50分钟

模块 3 学习目标 10分钟
每周阅读近似政策控制 40分钟

1个作业总计40分钟

近似控制 40分钟

1个编程作业总计180分钟

函数逼近与控制 180分钟

2个讨论话题总计20分钟

用 FA #1 控制 10分钟
用 2 号 FA 进行控制 10分钟

迄今为止，你所学到的每一种算法都会估算出一个值函数，作为实现找到最优策略这一目标的中间步骤。另一种策略是直接学习策略参数。本周你将了解这些策略梯度方法，以及它们与基于值函数的方法相比的优势。您还将了解如何使用策略梯度法在具有连续状态和行动空间的任务中找到最优策略。

涵盖的内容

11个视频2篇阅读材料1个作业1个编程作业1个讨论话题

11个视频总计55分钟

直接学习政策 6分钟
政策参数化的优势 5分钟
学习政策的目标 5分钟
政策梯度定理 5分钟
估计政策梯度 5分钟
演员批评算法 5分钟
具有软最大政策的演员批评家 4分钟
演员评论家演示 6分钟
连续行动的高斯政策 7分钟
第 4 周总结 4分钟
祝贺您课程 4 预览 2分钟

2篇阅读材料总计50分钟

模块 4 学习目标 10分钟
每周阅读政策梯度法 40分钟

1个作业总计45分钟

政策梯度法 45分钟

1个编程作业总计180分钟

使用瓦片编码的平均奖励软最大演员评判法 180分钟

1个讨论话题总计10分钟

政策梯度法 10分钟

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分

(112个评价)

Martha White

University of Alberta

4 门课程 114,421 名学生

Adam White

University of Alberta

4 门课程 114,421 名学生

提供方

University of Alberta

Alberta Machine Intelligence Institute

从机器学习浏览更多内容

University of Alberta
强化学习基础
课程
University of Alberta
基于样本的学习方法
课程
University of Alberta
完整的强化学习系统（Capstone）
课程

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

自 2018开始学习的学生

''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情，我就可以学习。'

Jennifer J.

自 2020开始学习的学生

''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.

自 2021开始学习的学生

''如果我的大学不提供我需要的主题课程，Coursera 便是最好的去处之一。'

Chaitanya A.

''学习不仅仅是在工作中做的更好：它远不止于此。Coursera 让我无限制地学习。'

学生评论

5 stars
84.55%
4 stars
12.26%
3 stars
2.12%
2 stars
0.70%
1 star
0.35%

显示 3/846 个

已于 Nov 9, 2019审阅

Great course. Slightly more complex than courses 1 and 2, but a huge improvement in terms of applicability to real-world situations.

已于 Jun 24, 2020审阅

Surely a level-up from the previous courses. This course adds to and extends what has been learned in courses 1 & 2 to a greater sphere of real-world problems. Great job Prof. Adam and Martha!

已于 May 31, 2020审阅

I had been reading the book of Reinforcement Learning An Introduction by myself. This class helped me to finish the study with a great learning environment. Thank you, Martha and Adam!

查看更多评论