IBM
使用 Shell、Airflow 和 Kafka 的 ETL 和数据管道
IBM

使用 Shell、Airflow 和 Kafka 的 ETL 和数据管道

Jeff Grossman
Yan Luo
Lavanya Thiruvali Sunderarajan

位教师:Jeff Grossman

62,918 人已注册

包含在 Coursera Plus

深入了解一个主题并学习基础知识。
4.5

(430 条评论)

中级 等级

推荐体验

灵活的计划
2 周 在 10 小时 一周
自行安排学习进度
87%
大多数学生喜欢此课程
深入了解一个主题并学习基础知识。
4.5

(430 条评论)

中级 等级

推荐体验

灵活的计划
2 周 在 10 小时 一周
自行安排学习进度
87%
大多数学生喜欢此课程

您将学到什么

  • 描述并对比提取、转换、加载(ETL)流程和提取、加载、转换(ELT)流程。

  • 解释批处理与并发执行模式。

  • 通过 bash 和 Python 函数实现 ETL 工作流程。

  • 描述数据管道组件、流程、工具和技术。

要了解的详细信息

可分享的证书

添加到您的领英档案

授课语言:英语(English)

了解顶级公司的员工如何掌握热门技能

Petrobras, TATA, Danone, Capgemini, P&G 和 L'Oreal 的徽标

积累特定领域的专业知识

此课程作为 的一部分提供
在注册此课程时,您还需要选择一个特定的合作项目。
  • 向行业专家学习新概念
  • 获得对主题或工具的基础理解
  • 通过实践项目培养工作相关技能
  • 获得可共享的职业证书

该课程共有5个模块

ETL 或 Extract, Transform, and Load 流程用于对数据的灵活性、速度和可扩展性要求较高的情况。您将探索类似流程 ETL 和 ELT 之间的一些关键区别,其中包括转换的位置、灵活性、Big Data 支持和洞察时间。 您将了解到,对访问原始数据的需求越来越大,这推动了从 ETL 到 ELT 的演变。数据提取涉及包括数据库查询、网络搜刮和 API 在内的先进技术。您还将了解到,数据 Transformer 是指对数据进行格式化以适应应用程序,并且数据是成批 Load 或连续流加载的。

涵盖的内容

7个视频2篇阅读材料2个作业1个插件

提取、转换和加载(ETL)管道是通过 Bash 脚本创建的,可以使用 cron 按计划运行。数据管道将数据从一个地方或形式移动到另一个地方或形式。数据管道流程包括调度或触发、监控、维护和优化。此外,批处理管道提取并操作成批数据。而流式数据管道则是快速连续地逐个摄取数据包。在本模块中,您将了解到流式管道适用于需要最新数据的情况。您将了解并行化和 I/O 缓冲区有助于缓解瓶颈。您还将学习如何用延迟和吞吐量来描述数据管道性能。

涵盖的内容

5个视频4篇阅读材料4个作业1个应用程序项目1个插件

Apache Airflow 将数据管道表示为 DAG 的方法的主要优势在于,它们是以代码的形式表达的,这使得您的数据管道更具可维护性、可测试性和协作性。任务(DAG 中的节点)是通过实施 Airflow 内置的操作符创建的。 在本模块中,您将了解 Apache Airflow 拥有丰富的用户界面,可简化数据管道的工作。您将了解如何以图或树模式可视化 DAG。您还将了解 DAG 定义文件的关键组件,并了解 Airflow 日志会保存到本地文件系统,然后发送到云存储、搜索引擎和日志分析器。

涵盖的内容

5个视频1篇阅读材料2个作业4个应用程序项目1个插件

Apache Kafka 是一个非常流行的开源事件流管道。事件是一种数据类型,它描述了实体在一段时间内可观察到的状态更新。流行的 Kafka 服务提供商包括 Confluent Cloud、IBM Event Stream 和 Amazon MSK。此外,Kafka Streams API 是一个客户端库,可支持您在事件流管道中进行数据处理。 在本模块中,您将了解到 Kafka 的核心组件包括经纪人、主题、分区、复制、生产者和消费者。您将探索 Kafka Stream API 流处理拓扑中两种特殊类型的处理器:源处理器和汇处理器。您还将了解如何使用 Kafka 构建事件流管道。

涵盖的内容

4个视频1篇阅读材料2个作业3个应用程序项目1个插件

在这个最后的作业模块中,您将运用新学到的知识来探索两个非常令人兴奋的动手实验。 "使用 Apache Airflow 创建 ETL 数据管道 "和 "使用 Kafka 创建流数据管道"。您将探索使用真实场景构建这些 ETL 管道。 您将提取、转换数据并将其加载到 CSV 文件中。您还将在 Apache Kafka 中创建名为 "toll "的主题,下载和定制流数据消费者,以及验证数据库表中是否收集了流数据。

涵盖的内容

4篇阅读材料1个作业1次同伴评审3个应用程序项目

获得职业证书

将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。

位教师

授课教师评分
4.7 (108个评价)
Jeff Grossman
IBM
3 门课程667,937 名学生
Yan Luo
IBM
7 门课程376,651 名学生

提供方

IBM

从 数据管理 浏览更多内容

人们为什么选择 Coursera 来帮助自己实现职业发展

Felipe M.
自 2018开始学习的学生
''能够按照自己的速度和节奏学习课程是一次很棒的经历。只要符合自己的时间表和心情,我就可以学习。'
Jennifer J.
自 2020开始学习的学生
''我直接将从课程中学到的概念和技能应用到一个令人兴奋的新工作项目中。'
Larry W.
自 2021开始学习的学生
''如果我的大学不提供我需要的主题课程,Coursera 便是最好的去处之一。'
Chaitanya A.
''学习不仅仅是在工作中做的更好:它远不止于此。Coursera 让我无限制地学习。'

学生评论

4.5

430 条评论

  • 5 stars

    70.99%

  • 4 stars

    17.40%

  • 3 stars

    6.49%

  • 2 stars

    2.55%

  • 1 star

    2.55%

显示 3/430 个

SK
5

已于 Jan 20, 2025审阅

JJ
5

已于 Jul 22, 2023审阅

MA
5

已于 Jun 9, 2022审阅

Coursera Plus

通过 Coursera Plus 开启新生涯

无限制访问 10,000+ 世界一流的课程、实践项目和就业就绪证书课程 - 所有这些都包含在您的订阅中

通过在线学位推动您的职业生涯

获取世界一流大学的学位 - 100% 在线

加入超过 3400 家选择 Coursera for Business 的全球公司

提升员工的技能,使其在数字经济中脱颖而出

常见问题

¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。