ETL und Datenpipelines mit Shell, Airflow und Kafka

Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

ETL und Datenpipelines mit Shell, Airflow und Kafka

Dieser Kurs ist Teil mehrerer Programme.

Dozenten: Jeff Grossman

69.734 bereits angemeldet

Bei enthalten

Mehr erfahren

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

458 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

87%

Den meisten Lernenden hat dieser Kurs gefallen

5 Module

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

458 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan

2 Wochen bei 10 Stunden eine Woche

In Ihrem eigenen Lerntempo lernen

87%

Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

Beschreiben und vergleichen Sie Extrahieren, Transformieren, Laden (ETL)-Prozesse und Extrahieren, Laden, Transformieren (ELT)-Prozesse.
Erklären Sie die Batch- und die gleichzeitige Ausführung.
Implementierung des ETL-Workflows durch Bash- und Python-Funktionen.
Beschreiben Sie die Komponenten, Prozesse, Tools und Technologien der Datenpipeline.

Kompetenzen, die Sie erwerben

Kategorie: Leistungsoptimierung
Kategorie: Data Warehousing
Kategorie: Extrahieren, Transformieren, Laden
Kategorie: Integration von Daten
Kategorie: Datenumwandlung
Kategorie: Datenmarkt
Kategorie: Daten-Pipelines
Kategorie: Bereinigung von Daten
Kategorie: Datenverarbeitung

Werkzeuge, die Sie lernen werden

Kategorie: Apache Airflow
Kategorie: Daten-Seen
Kategorie: Apache Kafka
Kategorie: Befehlszeilenschnittstelle
Kategorie: Shell-Skript
Kategorie: Bash (Skriptsprache)

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufügen

Bewertungen

11 Zuweisungen¹

KI-bewertet siehe Haftungsausschluss

Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

Weitere Informationen zu Coursera für Unternehmen

Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfügbar

Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.

Lernen Sie neue Konzepte von Branchenexperten
Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

Informieren Sie sich über die zwei verschiedenen Ansätze zur Umwandlung von Rohdaten in analysereife Daten. Ein Ansatz ist das Extrahieren, Transformieren und Laden (ETL). Der andere Ansatz ist der Extrahier-, Lade- und Transformierprozess (ELT). ETL-Prozesse werden für Data Warehouses und Data Marts verwendet. ELT-Prozesse kommen bei Data Lakes zum Einsatz, wo die Daten bei Bedarf von der anfordernden/aufrufenden Anwendung umgewandelt werden.

In diesem Kurs lernen Sie die verschiedenen Tools und Techniken kennen, die bei ETL und Data Pipelines zum Einsatz kommen. Sowohl ETL als auch ELT extrahieren Daten aus Quellsystemen, bewegen die Daten durch die Datenpipeline und speichern die Daten in Zielsystemen. In diesem Kurs erfahren Sie, wie sich die ELT- und die ETL-Verarbeitung unterscheiden und welche Anwendungsfälle es für beide gibt. Sie werden die Methoden und Tools kennenlernen, die für die Extraktion der Daten, die logische oder physische Zusammenführung der extrahierten Daten und das Laden der Daten in Daten-Repositories verwendet werden. Sie werden auch Transformationen definieren, die Sie auf die Quelldaten anwenden können, um die Daten glaubwürdig, kontextbezogen und für die Datennutzer zugänglich zu machen. Sie werden in der Lage sein, einige der zahlreichen Methoden zum Laden von Daten in das Zielsystem, zur Überprüfung der Datenqualität, zur Überwachung von Ladefehlern und zum Einsatz von Wiederherstellungsmechanismen im Falle eines Fehlers zu erläutern. Am Ende dieses Kurses wissen Sie auch, wie Sie Apache Airflow zum Aufbau von Datenpipelines verwenden können und kennen die Vorteile dieses Ansatzes. Außerdem lernen Sie, wie Sie Apache Kafka zum Aufbau von Streaming-Pipelines verwenden und die Kernkomponenten von Kafka kennen, darunter Broker, Topics, Partitionen, Replikationen, Producer und Consumer. Schließlich werden Sie ein gemeinsames Abschlussprojekt durchführen, mit dem Sie die in den einzelnen Modulen erworbenen Fähigkeiten unter Beweis stellen können.

ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.

Das ist alles enthalten

7 Videos3 Lektüren2 Aufgaben1 Plug-in

7 VideosInsgesamt 32 Minuten

Kurs-Einführungsvideo5 Minuten
ETL-Grundlagen5 Minuten
ELT-Grundlagen4 Minuten
ETL und ELT im Vergleich4 Minuten
Techniken zur Datenextraktion4 Minuten
Einführung in Datenumwandlungstechniken4 Minuten
Techniken zum Laden von Daten4 Minuten

3 LektürenInsgesamt 9 Minuten

IBM Produkt-Spotlight: IBM Instana2 Minuten
Einführung in den Kurs4 Minuten
Zusammenfassung & Highlights3 Minuten

2 AufgabenInsgesamt 40 Minuten

Benotetes Quiz: ETL- und ELT-Prozesse30 Minuten
ETL- und ELT-Prozesse10 Minuten

1 Plug-inInsgesamt 5 Minuten

Interaktivität: Unterscheiden Sie zwischen ETL und ELT5 Minuten

ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.

Das ist alles enthalten

5 Videos4 Lektüren4 Aufgaben1 App-Element1 Plug-in

5 VideosInsgesamt 25 Minuten

ETL mit Shell-Skripting5 Minuten
Einführung in Daten-Pipelines4 Minuten
Wichtige Daten-Pipeline-Prozesse5 Minuten
Batch versus Streaming Data Pipeline Anwendungsfälle5 Minuten
Tools und Technologien für die Datenleitung7 Minuten

4 LektürenInsgesamt 15 Minuten

Linux-Befehle und Shell-Scripting2 Minuten
ETL-Techniken10 Minuten
Zusammenfassung & Highlights1 Minute
Zusammenfassung & Highlights2 Minuten

4 AufgabenInsgesamt 80 Minuten

Benotetes Quiz: ETL mit Shell-Skripten30 Minuten
Benotetes Quiz: Eine Einführung in Daten-Pipelines30 Minuten
Praxis-Quiz: ETL mit Shell-Skripten10 Minuten
Praxis-Quiz: Eine Einführung in Daten-Pipelines10 Minuten

1 App-ElementInsgesamt 30 Minuten

Praktische Übung: ETL mit Shell-Skripten30 Minuten

1 Plug-inInsgesamt 10 Minuten

Interaktivität: Unterscheiden Sie zwischen Batch-Verarbeitung und Stream-Verarbeitung10 Minuten

Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, was Ihre Datenpipelines besser wartbar, testbar und kollaborativ macht. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erkunden, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie werden auch die Schlüsselkomponenten einer DAG-Definitionsdatei kennenlernen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.

Das ist alles enthalten

5 Videos1 Lektüre2 Aufgaben4 App-Elemente1 Plug-in

5 VideosInsgesamt 25 Minuten

Apache Airflow Übersicht6 Minuten
Vorteile der Darstellung von Datenpipelines als DAGs in Apache Airflow7 Minuten
Apache Airflow UI4 Minuten
Eine DAG mit Airflow aufbauen4 Minuten
Luftstromaufzeichnung und -überwachung4 Minuten

1 LektüreInsgesamt 3 Minuten

Zusammenfassung & Highlights3 Minuten

2 AufgabenInsgesamt 40 Minuten

Benotetes Quiz: Aufbau von Datenpipelines mit Airflow30 Minuten
Praxis-Quiz: Aufbau von Datenpipelines mit Airflow10 Minuten

4 App-ElementeInsgesamt 120 Minuten

Praktisches Labor: Erste Schritte mit Apache Airflow20 Minuten
Praktisches Labor: Erstellen eines DAG für Apache Airflow mit PythonOperator40 Minuten
Praktisches Labor: Eine DAG für Apache Airflow mit BashOperator erstellen40 Minuten
Praktisches Labor: Überwachung einer DAG20 Minuten

1 Plug-inInsgesamt 15 Minuten

Lesen: DAG-Struktur und Operatoren15 Minuten

Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt. In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. Außerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.

Das ist alles enthalten

4 Videos1 Lektüre2 Aufgaben3 App-Elemente1 Plug-in

4 VideosInsgesamt 26 Minuten

Komponenten der Plattform für verteiltes Ereignis-Streaming6 Minuten
Apache Kafka Überblick6 Minuten
Aufbau von Ereignis-Streaming-Pipelines mit Kafka10 Minuten
Kafka Streaming-Prozess5 Minuten

1 Lektüre

Zusammenfassung & Highlights0 Minuten

2 AufgabenInsgesamt 40 Minuten

Benotetes Quiz: Aufbau von Streaming-Pipelines mit Kafka30 Minuten
Praxis-Quiz: Aufbau von Streaming-Pipelines mit Kafka10 Minuten

3 App-ElementeInsgesamt 90 Minuten

Praktisches Labor: Arbeiten mit Streaming-Daten mit Kafka20 Minuten
[Optional] Praktische Übung: Kafka-Nachrichtenschlüssel und Offset40 Minuten
[Optional] Praktische Übung: Kafka-Python-Client30 Minuten

1 Plug-inInsgesamt 30 Minuten

Kafka Python Client30 Minuten

In diesem letzten Modul werden Sie Ihr neu erworbenes Wissen anwenden, um sehr spannende praktische Übungen zu erforschen. "Extrahieren, Transformieren, Laden (ETL) von Datenpipelines mit Apache Airflow". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden.

Das ist alles enthalten

5 Lektüren1 Aufgabe1 peer review4 App-Elemente1 Plug-in

5 LektürenInsgesamt 25 Minuten

Überblick über das Projekt10 Minuten
Benotete Abschlussprüfung mit Zeitmessung Anweisungen10 Minuten
Was kommt als Nächstes? IBM Instana erforschen1 Minute
Glückwünsche & Nächste Schritte2 Minuten
Dank des Kursteams2 Minuten

1 AufgabeInsgesamt 90 Minuten

Zeitgesteuertes Abschlussquiz90 Minuten

1 peer reviewInsgesamt 30 Minuten

Option 2: Peer-to-Peer-Überprüfung: Projekteinreichung und Peer-to-Peer-Review30 Minuten

4 App-ElementeInsgesamt 275 Minuten

Option 1: KI-bewertet - endgültige Einreichung und Bewertung50 Minuten
Praktisches Labor: ETL-Datenpipelines mit BashOperator und Apache Airflow erstellen90 Minuten
[Optional] Praktische Übung: Aufbau einer ETL-Pipeline mit PythonOperator und Apache Airflow90 Minuten
[Optional] Praktische Übung: Aufbau einer Streaming ETL-Pipeline mit Kafka45 Minuten

1 Plug-inInsgesamt 15 Minuten

Lesen: Leitlinien für die endgültige Einreichung und Aufgabenstellung15 Minuten

Erwerben Sie ein Karrierezertifikat.

Fügen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen

(110 Bewertungen)

Jeff Grossman

IBM

3 Kurse748.543 Lernende

Yan Luo

IBM

7 Kurse407.510 Lernende

von

IBM

Mehr von Datenverwaltung entdecken

Status: Kostenloser Testzeitraum
Coursera
Building Automated Data Pipelines with Spark,dbt,and Airflow
Kurs
Status: Kostenloser Testzeitraum
EDUCBA
Apache Spark: Design & Execute ETL Pipelines Hands-On
Kurs
Status: Vorschau
Edureka
Data Engineering Workflow Orchestration with Airflow
Kurs
Status: Vorschau
Coursera
ETL Testing Basics for Databases
Kurs

Warum entscheiden sich Menschen für Coursera für ihre Karriere?

Felipe M.

Lernender seit 2018

„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020

„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021

„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

5 stars
71,45 %
4 stars
17,42 %
3 stars
6,31 %
2 stars
2,39 %
1 star
2,39 %

Zeigt 3 von 458 an

Geprüft am 22. Juli 2023

Labs in this course are very helpful and to the point. It took me a while to complete this course but i learned a lot.

Geprüft am 20. Jan. 2025

Relevant information in recordings, good recap of every video and hand-on lesson in the end to concrete the knowledge.

Geprüft am 31. März 2023

Course offers valuable conceptual content but labs could be improved. Coursera assessment system is really poor.

Weitere Bewertungen anzeigen

Häufig gestellte Fragen

Um Zugang zu den Kursmaterialien und Aufgaben zu erhalten und um ein Zertifikat zu erwerben, müssen Sie die Zertifikatserfahrung erwerben, wenn Sie sich für einen Kurs anmelden. Sie können stattdessen eine kostenlose Testversion ausprobieren oder finanzielle Unterstützung beantragen. Der Kurs kann stattdessen die Option "Vollständiger Kurs, kein Zertifikat" anbieten. Mit dieser Option können Sie alle Kursmaterialien einsehen, die erforderlichen Bewertungen abgeben und eine Abschlussnote erhalten. Dies bedeutet auch, dass Sie kein Zertifikat erwerben können.

Wenn Sie sich für den Kurs anmelden, erhalten Sie Zugang zu allen Kursen des Zertifikats, und Sie erhalten ein Zertifikat, wenn Sie die Arbeit abgeschlossen haben. Ihr elektronisches Zertifikat wird zu Ihrer Seite "Leistungen" hinzugefügt - von dort aus können Sie Ihr Zertifikat ausdrucken oder zu Ihrem LinkedIn-Profil hinzufügen.

Weitere Fragen

Besuchen Sie die das Hilfe-Center für Kursteilnehmer.

Finanzielle Unterstützung verfügbar,

¹ Einige Aufgaben in diesem Kurs werden mit AI bewertet. Für diese Aufgaben werden Ihre Daten in Übereinstimmung mit Datenschutzhinweis von Courseraverwendet.