本课程介绍顺序决策和强化学习。我们首先讨论效用理论,学习如何在决策过程中表示和模拟偏好。我们首先将简单的决策问题建模为多臂强盗问题,并讨论评估反馈的几种方法。然后,我们将把决策问题建模为有限马尔可夫决策过程(MDP),并通过动态编程算法讨论其解决方案。我们还将讨论实际问题中的部分可观测性概念,这些问题以 POMDPs 为模型,然后通过在线规划方法加以解决。最后,我们介绍了强化学习问题,并讨论了两种范例:蒙特卡罗方法和时差学习。在课程的最后,我们将指出这两种范例如何位于 n 步时差方法的频谱上。强调算法和示例将是本课程的关键部分。
您将学到什么
定性偏好与适当的定量效用之间的映射。
分别用多臂强盗问题和马尔可夫决策过程来模拟非关联和关联顺序决策问题
实施动态编程算法,找到最佳政策
使用蒙特卡罗和时差法实施基本的强化学习算法
要了解的详细信息

可分享的证书
添加到您的领英档案
作业
8 项作业
授课语言:英语(English)
了解顶级公司的员工如何掌握热门技能

从 算法 浏览更多内容

University of Alberta

New York University

Simplilearn

University of Alberta
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'

Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'

Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'

Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'
学生评论
- 5 stars
65.21%
- 4 stars
21.73%
- 3 stars
0%
- 2 stars
8.69%
- 1 star
4.34%
显示 3/23 个
QN
已于 Jan 20, 2024审阅
Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!
SH
已于 Jul 9, 2023审阅
Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.





