École Polytechnique Fédérale de Lausanne
使用 Scala 和 Spark 进行大数据分析(Scala 2 版本)
École Polytechnique Fédérale de Lausanne

使用 Scala 和 Spark 进行大数据分析(Scala 2 版本)

2,468 人已注册

包含在 Coursera Plus

深入了解一个主题并学习基础知识。
中级 等级
需要一些相关经验
3 周 完成
在 10 小时 一周
灵活的计划
自行安排学习进度
深入了解一个主题并学习基础知识。
中级 等级
需要一些相关经验
3 周 完成
在 10 小时 一周
灵活的计划
自行安排学习进度

要了解的详细信息

可分享的证书

添加到您的领英档案

授课语言:英语(English)

了解顶级公司的员工如何掌握热门技能

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

该课程共有4个模块

在您的计算机上运行 Scala。完成示例作业,熟悉我们独特的作业提交方式。本周,我们将弥合共享内存场景(在并行编程课程中学到的先决条件)和分布式场景中数据并行性之间的差距。我们将探讨分布式系统中出现的重要问题,如延迟和故障。我们将继续讲解 Spark 的基础知识,这是一个面向功能的 Scala 大数据处理框架。在第一周结束时,我们将立即动手分析真实世界的数据集,以实践我们所学到的 Spark 知识。

涵盖的内容

7个视频6篇阅读材料3个编程作业

本周,我们将学习一种特殊的 RDD--配对 RDD。有了这种特殊的 RDD,我们将学习大型数据集的基本操作,如还原和连接。

涵盖的内容

4个视频2个编程作业

本周我们将探讨使用连接等操作对性能的影响。是否有可能不用支付在网络上移动数据的开销就能获得相同的结果?为了回答这个问题,我们将深入研究如何对数据进行分区,以实现更好的数据本地性,进而优化我们的一些 Spark 作业。

涵盖的内容

4个视频

有了对 Spark 作业中数据移动成本的新认识,以及上周针对数据本地性优化作业的一些经验,本周我们将重点讨论如何更轻松地实现类似的优化。结构化数据能帮助我们吗?我们将了解 Spark SQL 及其强大的优化器,该优化器使用结构来进行令人印象深刻的优化。接下来,我们将介绍数据框(DataFrames)和数据集(Datasets),它们为我们提供了一种将 RDD 与 Spark SQL 强大的自动优化功能相结合的方法。

涵盖的内容

5个视频2个编程作业

位教师

Prof. Heather Miller
École Polytechnique Fédérale de Lausanne
2 门课程104,088 名学生

从 算法 浏览更多内容

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'
Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'
Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'
Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'
Coursera Plus

通过 Coursera Plus 开启新生涯

无限制访问 10,000+ 世界一流的课程、实践项目和就业就绪证书课程 - 所有这些都包含在您的订阅中

通过在线学位推动您的职业生涯

获取世界一流大学的学位 - 100% 在线

加入超过 3400 家选择 Coursera for Business 的全球公司

提升员工的技能,使其在数字经济中脱颖而出

常见问题