案例研究:查找相似文档 一位读者对一篇特定的新闻文章很感兴趣,而你想找到相似的文章推荐给他。 什么是正确的相似性概念? 此外,如果还有数以百万计的其他文档呢? 每次检索新文档时,是否需要搜索所有其他文档? 如何将相似文档归类? 如何发现文档中新出现的主题?
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有6个模块
聚类和检索是目前影响最大的机器学习工具。 检索被用于几乎所有与我们交互的应用和设备中,比如提供一组与购物者正在考虑的产品相关的产品,或者提供一份你可能想在社交媒体平台上联系的人的名单。 聚类可用于辅助检索,但它是一种更广泛的有用工具,可用于自动发现数据中的结构,例如发现相似患者的群体。<p>本课程介绍为您概述了我们将涉及的主题以及我们假设您已掌握的背景知识和资源。
涵盖的内容
4个视频5篇阅读材料
课程开始时,我们将考虑一项检索任务,即获取与某人正在阅读的文档相似的文档。 我们将这个问题归结为近邻搜索,这个概念我们在基础和回归课程中已经了解过。 不过,在这里,您将深入了解算法的两个关键组成部分:数据表示和用于衡量数据点对之间相似性的度量。 您将研究天真近邻搜索算法的计算负担,并使用 KD 树(用于处理大型数据集)和定位敏感散列(LSH)实现可扩展的替代方案,即使在高维空间中也能提供近似近邻。 您将在维基百科数据集上探索所有这些想法,比较和对比各种选择对近邻结果的影响。
涵盖的内容
22个视频4篇阅读材料5个作业
在聚类中,我们的目标是将数据集中的数据点归类为不相交的集合。 受我们的文档分析案例研究的启发,您将使用聚类来发现按 "主题 "划分的文章主题组。 在这项无监督学习任务中,我们不会提供这些主题;相反,我们的想法是输出这样的聚类标签,这些标签可以在事后与 "科学"、"世界新闻 "等已知主题相关联。 即使没有这样的事后标签,您也将研究聚类输出如何能让人深入了解数据集中数据点之间的关系。 您要实现的第一种聚类算法是 k-means,它是目前使用最广泛的聚类算法。 为了扩展 k-means,您将了解用于并行化和分发计算的 MapReduce 框架,然后了解 k-means 的迭代如何利用这一框架。 您将看到,如果调整得当,k-means 可以对维基百科文章进行可解释的分组。
涵盖的内容
13个视频2篇阅读材料3个作业
在 K-均值法中,每个观测值都被硬性分配到一个聚类中,而这些分配仅仅基于聚类中心,而不是结合形状信息。 在关于聚类的第二个模块中,您将执行基于概率模型的聚类,它提供了:(1)一个更具描述性的 "聚类 "概念;(2)通过 "软分配 "考虑数据点分配到聚类的不确定性。 您将探索并实施一种名为期望最大化(EM)的广泛实用算法,用于推断这些软分配以及模型参数。 为了获得直观印象,您将首先考虑一个视觉上吸引人的图像聚类任务。 然后,您将对维基百科文章进行聚类,处理所考虑的 tf-idf 文档表示的高维性。
涵盖的内容
15个视频4篇阅读材料3个作业
聚类模型本质上假定数据分为互不相关的集合,例如按主题划分的文档。 但是,我们的数据对象往往可以通过集合(如多个主题)中的成员关系得到更好的描述。 在我们的第四个模块中,您将探索潜在 Dirichlet 分配(LDA),将其作为在文档分析中特别有用的混合成员模型的一个示例。 您将解释 LDA 的输出结果,以及利用输出结果的各种方法,例如将其作为一组学习到的文档特征。 您通过用于文档分析的 LDA 学习到的混合成员建模思想可以应用到许多其他有趣的模型和应用中,例如人们拥有多种隶属关系的社交网络模型。<p>在本模块中,我们将介绍贝叶斯建模的各个方面以及一种名为吉布斯采样的贝叶斯推理算法。 在本模块结束时,您将能够为 LDA 实现吉布斯采样器。
涵盖的内容
12个视频2篇阅读材料3个作业
在课程的最后,我们将对所学内容进行总结。 这既包括聚类和检索的特定技术,也包括更广泛有用的基础机器学习概念。<p>我们将快速介绍一种名为分层聚类的另类聚类方法,您将在维基百科数据集上进行实验。 在探索之后,我们将讨论聚类思想如何应用于时间序列分割等其他领域。 <p> 最后,我们将概述本专业其余部分的内容。
涵盖的内容
12个视频2篇阅读材料1个作业
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师


从 数据分析 浏览更多内容
- 状态:免费试用
University of Colorado Boulder
- 状态:免费试用
University of Illinois Urbana-Champaign
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
2,365 条评论
- 5 stars
74.37%
- 4 stars
19.15%
- 3 stars
4.69%
- 2 stars
0.76%
- 1 star
1.01%
显示 3/2365 个
已于 Jan 4, 2019审阅
Excellent course material and fantastic delivery. You guys made this complex learning so simple and interesting . Thanks for all this, keep the good works.
已于 Feb 11, 2020审阅
Excellent Course. This course provides in depth understanding of what's going in the background when an algorithm runs and how we can tune it for our purpose.
已于 Jan 6, 2019审阅
This was a really good course, It made me familiar with many tools and techniques used in ML. With this in hand I will be able to go out there and explore and understand things much better.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问专项课程中的所有课程,完成作业后还可以获得证书。您的电子证书将添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
是的。在特定的学习课程中,如果您付不起注册费,可以申请助学金或奖学金。如果您选择的学习课程有助学金或奖学金,您可以在说明页面找到申请链接。
更多问题
提供助学金,