深入探讨将原始数据转换为可用于分析的数据的两种不同方法。一种方法是提取、转换、加载(ETL)流程。另一种相反的方法是提取、加载和转换(ELT)流程。ETL 流程适用于数据仓库和数据集市。ELT 流程适用于数据湖,其中数据由请求/调用应用程序按需转换。


了解顶级公司的员工如何掌握热门技能

积累特定领域的专业知识
- 向行业专家学习新概念
- 获得对主题或工具的基础理解
- 通过实践项目培养工作相关技能
- 获得可共享的职业证书

该课程共有5个模块
ETL 或 Extract, Transform, and Load 流程用于对数据的灵活性、速度和可扩展性要求较高的情况。您将探索类似流程 ETL 和 ELT 之间的一些关键区别,其中包括转换的位置、灵活性、Big Data 支持和洞察时间。 您将了解到,对访问原始数据的需求越来越大,这推动了从 ETL 到 ELT 的演变。数据提取涉及包括数据库查询、网络搜刮和 API 在内的先进技术。您还将了解到,数据 Transformer 是指对数据进行格式化以适应应用程序,并且数据是成批 Load 或连续流加载的。
涵盖的内容
7个视频2篇阅读材料2个作业1个插件
提取、转换和加载(ETL)管道是通过 Bash 脚本创建的,可以使用 cron 按计划运行。数据管道将数据从一个地方或形式移动到另一个地方或形式。数据管道流程包括调度或触发、监控、维护和优化。此外,批处理管道提取并操作成批数据。而流式数据管道则是快速连续地逐个摄取数据包。在本模块中,您将了解到流式管道适用于需要最新数据的情况。您将了解并行化和 I/O 缓冲区有助于缓解瓶颈。您还将学习如何用延迟和吞吐量来描述数据管道性能。
涵盖的内容
5个视频4篇阅读材料4个作业1个应用程序项目1个插件
Apache Airflow 将数据管道表示为 DAG 的方法的主要优势在于,它们是以代码的形式表达的,这使得您的数据管道更具可维护性、可测试性和协作性。任务(DAG 中的节点)是通过实施 Airflow 内置的操作符创建的。 在本模块中,您将了解 Apache Airflow 拥有丰富的用户界面,可简化数据管道的工作。您将了解如何以图或树模式可视化 DAG。您还将了解 DAG 定义文件的关键组件,并了解 Airflow 日志会保存到本地文件系统,然后发送到云存储、搜索引擎和日志分析器。
涵盖的内容
5个视频1篇阅读材料2个作业4个应用程序项目1个插件
Apache Kafka 是一个非常流行的开源事件流管道。事件是一种数据类型,它描述了实体在一段时间内可观察到的状态更新。流行的 Kafka 服务提供商包括 Confluent Cloud、IBM Event Stream 和 Amazon MSK。此外,Kafka Streams API 是一个客户端库,可支持您在事件流管道中进行数据处理。 在本模块中,您将了解到 Kafka 的核心组件包括经纪人、主题、分区、复制、生产者和消费者。您将探索 Kafka Stream API 流处理拓扑中两种特殊类型的处理器:源处理器和汇处理器。您还将了解如何使用 Kafka 构建事件流管道。
涵盖的内容
4个视频1篇阅读材料2个作业3个应用程序项目1个插件
在这个最后的作业模块中,您将运用新学到的知识来探索两个非常令人兴奋的动手实验。 "使用 Apache Airflow 创建 ETL 数据管道 "和 "使用 Kafka 创建流数据管道"。您将探索使用真实场景构建这些 ETL 管道。 您将提取、转换数据并将其加载到 CSV 文件中。您还将在 Apache Kafka 中创建名为 "toll "的主题,下载和定制流数据消费者,以及验证数据库表中是否收集了流数据。
涵盖的内容
4篇阅读材料1个作业1次同伴评审3个应用程序项目
获得职业证书
将此证书添加到您的 LinkedIn 个人资料、简历或履历中。在社交媒体和绩效考核中分享。
提供方
从 数据管理 浏览更多内容
- 状态:免费试用
Coursera Instructor Network
- 状态:免费试用
Coursera Instructor Network
- 状态:免费试用
DeepLearning.AI
- 状态:免费试用
Google Cloud
人们为什么选择 Coursera 来帮助自己实现职业发展




学生评论
430 条评论
- 5 stars
70.99%
- 4 stars
17.40%
- 3 stars
6.49%
- 2 stars
2.55%
- 1 star
2.55%
显示 3/430 个
已于 Jan 20, 2025审阅
Relevant information in recordings, good recap of every video and hand-on lesson in the end to concrete the knowledge.
已于 Jul 22, 2023审阅
Labs in this course are very helpful and to the point. It took me a while to complete this course but i learned a lot.
已于 Jun 9, 2022审阅
Thanks to all the instructor's efforts, one of the best DATA engineering courses, contains hands-on Experience with essential data tools.
常见问题
要获取课程资料、作业和证书,您需要在注册课程时购买证书体验。 您可以尝试免费试听,或申请资助。课程可能提供 "完整课程,无证书"。通过该选项,您可以查看所有课程资料,提交必要的评估,并获得最终成绩。这也意味着您无法购买证书体验。
注册课程后,您就可以访问证书中的所有课程,并在完成作业后获得证书。您的电子证书将被添加到您的 "成就 "页面--在那里,您可以打印证书或将其添加到您的 LinkedIn 个人资料中。
更多问题
提供助学金,
¹ 本课程的部分作业采用 AI 评分。对于这些作业,将根据 Coursera 隐私声明使用您的数据。