强化学习是机器学习的一个子领域,但也是自动决策和人工智能的通用形式主义。本课程将向您介绍统计学习技术,让代理明确采取行动并与世界互动。随着越来越多的公司对交互式代理和智能决策感兴趣,了解学习代理决策的重要性和挑战在今天至关重要。


了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有5个模块
欢迎来到强化学习基础》(Fundamentals of Reinforcement Learning)是阿尔伯塔大学(University of Alberta)、Onlea 和 Coursera 联合推出的四部分强化学习专业课程中的第一门课程。在本课前模块中,您将认识您的讲师,了解本课程的内容,并获得一份深入的路线图,帮助您尽可能顺利地完成本专业课程。
涵盖的内容
4个视频2篇阅读材料1个讨论话题
在本课程的第一周,您将学习如何理解顺序决策中的探索-开发权衡,实施估算行动值的增量算法,并比较不同探索算法的优缺点。在本周的分级评估中,您将实施并测试一个ε-贪婪代理。
涵盖的内容
8个视频3篇阅读材料1个作业1个编程作业1个讨论话题2个插件
当你遇到工业问题时,最重要的第一步就是将问题转化为马尔可夫决策过程(Markov Decision Process,MDP)。解决方案的质量在很大程度上取决于您如何做好这一转换工作。本周,您将学习马尔可夫决策过程的定义,了解目标导向行为以及如何从标量奖励最大化中获得目标导向行为,还将了解偶发任务和持续任务之间的区别。在本周的分级评估中,您将自己创建三个符合 MDP 框架的示例任务。
涵盖的内容
7个视频2篇阅读材料1个作业1次同伴评审1个讨论话题
将问题表述为 MDP 后,使用值函数寻找最优策略会更有效。本周你们将学习策略和价值函数的定义,以及贝尔曼方程,这是我们所有算法都将使用的关键技术。
涵盖的内容
9个视频3篇阅读材料2个作业1个讨论话题
本周,您将学习如何计算价值函数和最优策略,前提是您已经掌握了 MDP 模型。您将实施动态编程来计算价值函数和最优策略,并了解动态编程在工业应用和问题中的实用性。此外,您还将了解广义策略迭代(Generalized Policy Iteration),这是构建收益最大化算法的常用模板。在本周的分级评估中,您将在一个模拟工业控制问题中实施一个高效的动态编程代理。
涵盖的内容
10个视频3篇阅读材料1个作业1个编程作业1个讨论话题
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师


人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
81.73%
- 4 stars
14.33%
- 3 stars
2.62%
- 2 stars
0.44%
- 1 star
0.86%
显示 3/2895 个
已于 May 6, 2023审阅
Excellent course, with a very nice presentation style, both the professors are excellent in their presentations and the material is well researched and delivered. A very valuable course.
已于 Apr 11, 2024审阅
The concepts may sound confusing in the beginning, but as you go forward you find it interesting and understanding. I suggest you completely read the reading assignments before watching the videos.
已于 Apr 25, 2020审阅
The concepts are explained in a simple and illustrative manner which helps in getting a better understanding of the concepts. The assignments and quizzes are also really well designed.
从 数据科学 浏览更多内容

Simplilearn

New York University

Columbia University

MathWorks
¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。






