使用函数式概念来处理分布在集群上的大数据在工业领域非常普遍,可以说这是函数式思想在工业领域的首次广泛应用。MapReduce 和 Hadoop,以及最近用 Scala 编写的快速、内存分布式集合框架 Apache Spark 的流行就证明了这一点。在本课程中,我们将了解如何使用 Spark 将数据并行范式扩展到分布式情况。我们将详细介绍 Spark 的编程模型,仔细了解它与我们熟悉的编程模型(如共享内存并行集合或顺序 Scala 集合)的不同之处和不同时间。通过 Spark 和 Scala 中的实践示例,我们将了解何时应考虑延迟和网络通信等与分布相关的重要问题,以及如何有效解决这些问题以提高性能。 学习成果。本课程结束时,您将能够:- 从持久化存储中读取数据并将其加载到 Apache Spark 中,- 使用 Spark 和 Scala 操作数据,- 以函数式风格表达数据分析算法,- 认识如何在 Spark 中避免洗牌和重新计算:您应该至少有一年的编程经验。熟练掌握 Java 或 C# 是理想的选择,但熟练掌握其他语言(如 C/C++、Python、Javascript 或 Ruby)也足够了。您应该熟悉使用命令行。本课程适合在《并行编程:https://hua.dididi.sbs/learn/parprog1》之后学习。

使用 Scala 和 Spark 进行大数据分析
本课程是 Scala 中的函数式编程 专项课程 的一部分
访问权限由 New York State Department of Labor 提供
102,964 人已注册
了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有4个模块
在您的计算机上运行 Scala。完成示例作业,熟悉我们独特的作业提交方式。本周,我们将弥合共享内存场景(在并行编程课程中学到的先决条件)和分布式场景中数据并行性之间的差距。我们将探讨分布式系统中出现的重要问题,如延迟和故障。我们将继续讲解 Spark 的基础知识,这是一个面向功能的 Scala 大数据处理框架。在第一周结束时,我们将立即动手分析真实世界的数据集,以实践我们所学到的 Spark 知识。
涵盖的内容
7个视频7篇阅读材料3个编程作业
本周,我们将学习一种特殊的 RDD--配对 RDD。有了这种特殊的 RDD,我们将学习大型数据集的基本操作,如还原和连接。
涵盖的内容
4个视频2个编程作业
本周我们将探讨使用连接等操作对性能的影响。是否有可能不用支付在网络上移动数据的开销就能获得相同的结果?为了回答这个问题,我们将深入研究如何对数据进行分区,以实现更好的数据本地性,进而优化我们的一些 Spark 作业。
涵盖的内容
4个视频
有了对 Spark 作业中数据移动成本的新认识,以及上周针对数据本地性优化作业的一些经验,本周我们将重点讨论如何更轻松地实现类似的优化。结构化数据能帮助我们吗?我们将了解 Spark SQL 及其强大的优化器,该优化器使用结构来进行令人印象深刻的优化。接下来,我们将介绍数据框(DataFrames)和数据集(Datasets),它们为我们提供了一种将 RDD 与 Spark SQL 强大的自动优化功能相结合的方法。
涵盖的内容
5个视频2个编程作业
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
72.97%
- 4 stars
21.05%
- 3 stars
4.42%
- 2 stars
0.65%
- 1 star
0.88%
显示 3/2598 个
已于 Apr 9, 2017审阅
Great introduction to spark. Fun assignments. Since it was the first ever session, there were quite a few kinks with the assignments. But the discussion forums rescued me any time I was stuck.
已于 Sep 22, 2019审阅
Awesome course and awesome teacher! Nevertheless, to grasp the most of this course, you should do the previous 3 courses of the "Functional Programming in Scala" specialization.
已于 Dec 2, 2017审阅
Excellent course! It's clear the instructor put a ton of thought and hard work into this. I learned a lot that I wouldn't have learned without taking this class. Thank you, Heather!
从 计算机科学 浏览更多内容

École Polytechnique Fédérale de Lausanne






