University of Washington
机器学习:聚类与检索
University of Washington

机器学习:聚类与检索

本课程是 机器学习 专项课程 的一部分

Emily Fox
Carlos Guestrin

位教师:Emily Fox

100,513 人已注册

包含在 Coursera Plus

深入了解一个主题并学习基础知识。
4.7

(2,365 条评论)

2 周 完成
在 10 小时 一周
灵活的计划
自行安排学习进度
92%
大多数学生喜欢此课程
深入了解一个主题并学习基础知识。
4.7

(2,365 条评论)

2 周 完成
在 10 小时 一周
灵活的计划
自行安排学习进度
92%
大多数学生喜欢此课程

要了解的详细信息

可分享的证书

添加到您的领英档案

作业

15 项作业

授课语言:英语(English)

了解顶级公司的员工如何掌握热门技能

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

本课程是 机器学习 专项课程 专项课程的一部分
在注册此课程时,您还会同时注册此专项课程。
  • 向行业专家学习新概念
  • 获得对主题或工具的基础理解
  • 通过实践项目培养工作相关技能
  • 获得可共享的职业证书

该课程共有6个模块

聚类和检索是目前影响最大的机器学习工具。 检索被用于几乎所有与我们交互的应用和设备中,比如提供一组与购物者正在考虑的产品相关的产品,或者提供一份你可能想在社交媒体平台上联系的人的名单。 聚类可用于辅助检索,但它是一种更广泛的有用工具,可用于自动发现数据中的结构,例如发现相似患者的群体。<p>本课程介绍为您概述了我们将涉及的主题以及我们假设您已掌握的背景知识和资源。

涵盖的内容

4个视频5篇阅读材料

课程开始时,我们将考虑一项检索任务,即获取与某人正在阅读的文档相似的文档。 我们将这个问题归结为近邻搜索,这个概念我们在基础和回归课程中已经了解过。 不过,在这里,您将深入了解算法的两个关键组成部分:数据表示和用于衡量数据点对之间相似性的度量。 您将研究天真近邻搜索算法的计算负担,并使用 KD 树(用于处理大型数据集)和定位敏感散列(LSH)实现可扩展的替代方案,即使在高维空间中也能提供近似近邻。 您将在维基百科数据集上探索所有这些想法,比较和对比各种选择对近邻结果的影响。

涵盖的内容

22个视频4篇阅读材料5个作业

在聚类中,我们的目标是将数据集中的数据点归类为不相交的集合。 受我们的文档分析案例研究的启发,您将使用聚类来发现按 "主题 "划分的文章主题组。 在这项无监督学习任务中,我们不会提供这些主题;相反,我们的想法是输出这样的聚类标签,这些标签可以在事后与 "科学"、"世界新闻 "等已知主题相关联。 即使没有这样的事后标签,您也将研究聚类输出如何能让人深入了解数据集中数据点之间的关系。 您要实现的第一种聚类算法是 k-means,它是目前使用最广泛的聚类算法。 为了扩展 k-means,您将了解用于并行化和分发计算的 MapReduce 框架,然后了解 k-means 的迭代如何利用这一框架。 您将看到,如果调整得当,k-means 可以对维基百科文章进行可解释的分组。

涵盖的内容

13个视频2篇阅读材料3个作业

在 K-均值法中,每个观测值都被硬性分配到一个聚类中,而这些分配仅仅基于聚类中心,而不是结合形状信息。 在关于聚类的第二个模块中,您将执行基于概率模型的聚类,它提供了:(1)一个更具描述性的 "聚类 "概念;(2)通过 "软分配 "考虑数据点分配到聚类的不确定性。 您将探索并实施一种名为期望最大化(EM)的广泛实用算法,用于推断这些软分配以及模型参数。 为了获得直观印象,您将首先考虑一个视觉上吸引人的图像聚类任务。 然后,您将对维基百科文章进行聚类,处理所考虑的 tf-idf 文档表示的高维性。

涵盖的内容

15个视频4篇阅读材料3个作业

聚类模型本质上假定数据分为互不相关的集合,例如按主题划分的文档。 但是,我们的数据对象往往可以通过集合(如多个主题)中的成员关系得到更好的描述。 在我们的第四个模块中,您将探索潜在 Dirichlet 分配(LDA),将其作为在文档分析中特别有用的混合成员模型的一个示例。 您将解释 LDA 的输出结果,以及利用输出结果的各种方法,例如将其作为一组学习到的文档特征。 您通过用于文档分析的 LDA 学习到的混合成员建模思想可以应用到许多其他有趣的模型和应用中,例如人们拥有多种隶属关系的社交网络模型。<p>在本模块中,我们将介绍贝叶斯建模的各个方面以及一种名为吉布斯采样的贝叶斯推理算法。 在本模块结束时,您将能够为 LDA 实现吉布斯采样器。

涵盖的内容

12个视频2篇阅读材料3个作业

在课程的最后,我们将对所学内容进行总结。 这既包括聚类和检索的特定技术,也包括更广泛有用的基础机器学习概念。<p>我们将快速介绍一种名为分层聚类的另类聚类方法,您将在维基百科数据集上进行实验。 在探索之后,我们将讨论聚类思想如何应用于时间序列分割等其他领域。 <p> 最后,我们将概述本专业其余部分的内容。

涵盖的内容

12个视频2篇阅读材料1个作业

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分
4.8 (96个评价)
Emily Fox
University of Washington
6 门课程493,281 名学生
Carlos Guestrin
University of Washington
8 门课程494,068 名学生

提供方

从 数据分析 浏览更多内容

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'
Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'
Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'
Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'

学生评论

4.7

2,365 条评论

  • 5 stars

    74.37%

  • 4 stars

    19.15%

  • 3 stars

    4.69%

  • 2 stars

    0.76%

  • 1 star

    1.01%

显示 3/2365 个

JS
5

已于 Jan 4, 2019审阅

CS
5

已于 Feb 11, 2020审阅

SC
4

已于 Jan 6, 2019审阅

Coursera Plus

通过 Coursera Plus 开启新生涯

无限制访问 10,000+ 世界一流的课程、实践项目和就业就绪证书课程 - 所有这些都包含在您的订阅中

通过在线学位推动您的职业生涯

获取世界一流大学的学位 - 100% 在线

加入超过 3400 家选择 Coursera for Business 的全球公司

提升员工的技能,使其在数字经济中脱颖而出

常见问题