在数据流课程系列的第二部分,我们将深入探讨如何使用 Beam SDK 开发管道。我们首先回顾一下 Apache Beam 的概念。接下来,我们将讨论使用窗口、水印和触发器处理流数据。然后,我们将介绍管道中源和汇的选项、表达结构化数据的 Structure 以及如何使用状态和定时器 API 进行有状态转换。接下来,我们将回顾有助于最大限度提高管道性能的最佳实践。在课程的最后,我们将介绍在 Beam 中表示业务逻辑的 SQL 和数据帧,以及如何使用 Beam 笔记本迭代开发管道。

了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有10个模块
本模块介绍课程和课程大纲
涵盖的内容
1个视频1篇阅读材料
回顾 Apache Beam 的主要概念,以及如何应用这些概念编写自己的数据处理管道。
涵盖的内容
3个视频1篇阅读材料1个作业2个应用程序项目1个插件
在本 Modulation 中,您将学习如何使用 Dataflow 以流式方式处理数据。为此,您需要学习三个主要概念:如何在窗口中分组数据;水印的重要性在于了解窗口何时准备好产生结果;以及如何控制窗口何时以及多少次发出输出。
涵盖的内容
3个视频1篇阅读材料1个作业4个应用程序项目
在本模块中,您将了解什么是数据流中的源和汇。Modulation 将举例说明 TextIO、FileIO、BigQueryIO、PubsubIO、KafKaIO、BigtableIO、AvroIO 和 Splittable DoFn。Modulation 还将指出与每种 I/O 相关的一些有用功能。
涵盖的内容
8个视频1篇阅读材料1个作业
本模块将介绍模式,它为开发人员提供了一种在 Beam 管道中表达结构化数据的方法。
涵盖的内容
2个视频1篇阅读材料1个作业2个应用程序项目
本 Modulation 将介绍状态和定时器这两个功能强大的特性,您可以在 DoFn 中使用这两个特性来实现有状态的 Transformer。
涵盖的内容
3个视频1篇阅读材料1个作业
本模块将讨论最佳实践,并回顾可最大限度提高数据流管道性能的常见模式。
涵盖的内容
7个视频1篇阅读材料1个作业2个应用程序项目
该 Modulation 引入了两个新的 API,用于在 Beam 中表示您的业务逻辑:SQL 和 Dataframes。
涵盖的内容
3个视频1篇阅读材料1个作业
本模块将介绍 Beam Notebook,这是一个供 Python 开发人员加入 Beam SDK 并在 Jupyter Notebook 环境中迭代开发管道的接口。
涵盖的内容
1个视频1篇阅读材料1个作业
本 Module 提供课程回顾
涵盖的内容
1个视频
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
位教师

提供方
人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
学生评论
- 5 stars
50%
- 4 stars
20.45%
- 3 stars
18.18%
- 2 stars
0%
- 1 star
11.36%
显示 3/44 个
已于 Jun 23, 2021审阅
Found this course very helpful while learning developing pipelines in gcp using dataflow-beam.






