IBM

ETL und Datenpipelines mit Shell, Airflow und Kafka

Sparen Sie mit 40% Rabatt auf 3 Monate Coursera Plus bei den Fähigkeiten, die Sie zum Strahlen bringen. Jetzt sparen

IBM

ETL und Datenpipelines mit Shell, Airflow und Kafka

Jeff Grossman
Yan Luo
Lavanya Thiruvali Sunderarajan

Dozenten: Jeff Grossman

69.734 bereits angemeldet

Bei Coursera Plus enthalten

Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

458 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
2 Wochen bei 10 Stunden eine Woche
In Ihrem eigenen Lerntempo lernen
87%
Den meisten Lernenden hat dieser Kurs gefallen
Verschaffen Sie sich einen Einblick in ein Thema und lernen Sie die Grundlagen.

458 Bewertungen

Stufe Mittel

Empfohlene Erfahrung

Flexibler Zeitplan
2 Wochen bei 10 Stunden eine Woche
In Ihrem eigenen Lerntempo lernen
87%
Den meisten Lernenden hat dieser Kurs gefallen

Was Sie lernen werden

  • Beschreiben und vergleichen Sie Extrahieren, Transformieren, Laden (ETL)-Prozesse und Extrahieren, Laden, Transformieren (ELT)-Prozesse.

  • Erklären Sie die Batch- und die gleichzeitige AusfĂĽhrung.

  • Implementierung des ETL-Workflows durch Bash- und Python-Funktionen.

  • Beschreiben Sie die Komponenten, Prozesse, Tools und Technologien der Datenpipeline.

Kompetenzen, die Sie erwerben

  • Kategorie: Leistungsoptimierung
  • Kategorie: Data Warehousing
  • Kategorie: Extrahieren, Transformieren, Laden
  • Kategorie: Integration von Daten
  • Kategorie: Datenumwandlung
  • Kategorie: Datenmarkt
  • Kategorie: Daten-Pipelines
  • Kategorie: Bereinigung von Daten
  • Kategorie: Datenverarbeitung

Werkzeuge, die Sie lernen werden

  • Kategorie: Apache Airflow
  • Kategorie: Daten-Seen
  • Kategorie: Apache Kafka
  • Kategorie: Befehlszeilenschnittstelle
  • Kategorie: Shell-Skript
  • Kategorie: Bash (Skriptsprache)

Wichtige Details

Zertifikat zur Vorlage

Zu Ihrem LinkedIn-Profil hinzufĂĽgen

Bewertungen

11 ZuweisungenÂą

KI-bewertet siehe Haftungsausschluss
Unterrichtet in Englisch

Erfahren Sie, wie Mitarbeiter fĂĽhrender Unternehmen gefragte Kompetenzen erwerben.

 Logos von Petrobras, TATA, Danone, Capgemini, P&G und L'Oreal

Erweitern Sie Ihre Fachkenntnisse

Dieser Kurs ist als Teil verfĂĽgbar
Wenn Sie sich für diesen Kurs anmelden, müssen Sie auch ein bestimmtes Programm auswählen.
  • Lernen Sie neue Konzepte von Branchenexperten
  • Gewinnen Sie ein Grundverständnis bestimmter Themen oder Tools
  • Erwerben Sie berufsrelevante Kompetenzen durch praktische Projekte
  • Erwerben Sie ein Berufszertifikat zur Vorlage

In diesem Kurs gibt es 5 Module

ETL oder Extrahier-, Transformier- und Ladeprozesse werden in Fällen eingesetzt, in denen Flexibilität, Geschwindigkeit und Skalierbarkeit von Daten wichtig sind. Sie werden einige wichtige Unterschiede zwischen ähnlichen Prozessen, ETL und ELT, kennenlernen, darunter den Ort der Transformation, die Flexibilität, die Unterstützung von Big Data und die Zeit bis zur Einsichtnahme. Sie werden erfahren, dass die steigende Nachfrage nach Zugriff auf Rohdaten die Entwicklung von ETL zu ELT vorantreibt. Die Datenextraktion umfasst fortschrittliche Technologien wie Datenbankabfragen, Web Scraping und APIs. Sie werden auch erfahren, dass es bei der Datentransformation darum geht, Daten so zu formatieren, dass sie für die Anwendung geeignet sind, und dass Daten in Stapeln geladen oder kontinuierlich gestreamt werden.

Das ist alles enthalten

7 Videos3 LektĂĽren2 Aufgaben1 Plug-in

ETL-Pipelines (Extrahieren, Transformieren und Laden) werden mit Bash-Skripten erstellt, die mit cron nach einem Zeitplan ausgeführt werden können. Datenpipelines verschieben Daten von einem Ort oder einer Form zu einem anderen. Zu den Prozessen von Datenpipelines gehören Planung oder Auslösung, Überwachung, Wartung und Optimierung. Außerdem extrahieren und bearbeiten Batch-Pipelines Datenstapel. Streaming Data Pipelines hingegen nehmen Datenpakete einzeln und in schneller Folge auf. In diesem Modul lernen Sie, dass Streaming-Pipelines dann eingesetzt werden, wenn die aktuellsten Daten benötigt werden. Sie werden erfahren, dass Parallelisierung und E/A-Puffer helfen, Engpässe zu vermeiden. Außerdem lernen Sie, wie Sie die Leistung von Datenpipelines in Form von Latenz und Durchsatz beschreiben können.

Das ist alles enthalten

5 Videos4 LektĂĽren4 Aufgaben1 App-Element1 Plug-in

Der Hauptvorteil des Ansatzes von Apache Airflow, Datenpipelines als DAGs darzustellen, besteht darin, dass sie als Code ausgedrückt werden, was Ihre Datenpipelines besser wartbar, testbar und kollaborativ macht. Aufgaben, die Knoten in einer DAG, werden durch die Implementierung der in Airflow integrierten Operatoren erstellt. In diesem Modul lernen Sie die reichhaltige Benutzeroberfläche von Apache Airflow kennen, die die Arbeit mit Datenpipelines vereinfacht. Sie werden erkunden, wie Sie Ihre DAG im Graphen- oder Baummodus visualisieren können. Sie werden auch die Schlüsselkomponenten einer DAG-Definitionsdatei kennenlernen und erfahren, dass Airflow-Protokolle in lokalen Dateisystemen gespeichert und dann an Cloud-Speicher, Suchmaschinen und Protokollanalysatoren gesendet werden.

Das ist alles enthalten

5 Videos1 LektĂĽre2 Aufgaben4 App-Elemente1 Plug-in

Apache Kafka ist eine sehr beliebte Open-Source-Ereignis-Streaming-Pipeline. Ein Ereignis ist ein Datentyp, der die beobachtbaren Zustandsänderungen einer Entität im Laufe der Zeit beschreibt. Zu den beliebten Kafka-Dienstleistern gehören Confluent Cloud, IBM Event Stream und Amazon MSK. Außerdem ist die Kafka Streams API eine Client-Bibliothek, die Sie bei der Datenverarbeitung in Event-Streaming-Pipelines unterstützt. In diesem Modul werden Sie lernen, dass die Kernkomponenten von Kafka Broker, Topics, Partitionen, Replikationen, Producer und Consumer sind. Sie werden zwei spezielle Typen von Prozessoren in der Kafka Stream API Stream-Processing-Topologie kennenlernen: Den Quellprozessor und den Senkenprozessor. Außerdem lernen Sie, wie Sie mit Kafka Ereignis-Streaming-Pipelines aufbauen.

Das ist alles enthalten

4 Videos1 LektĂĽre2 Aufgaben3 App-Elemente1 Plug-in

In diesem letzten Modul werden Sie Ihr neu erworbenes Wissen anwenden, um sehr spannende praktische Ăśbungen zu erforschen. "Extrahieren, Transformieren, Laden (ETL) von Datenpipelines mit Apache Airflow". Sie werden den Aufbau dieser ETL-Pipelines anhand realer Szenarien erkunden.

Das ist alles enthalten

5 LektĂĽren1 Aufgabe1 peer review4 App-Elemente1 Plug-in

Erwerben Sie ein Karrierezertifikat.

FĂĽgen Sie dieses Zeugnis Ihrem LinkedIn-Profil, Lebenslauf oder CV hinzu. Teilen Sie sie in Social Media und in Ihrer Leistungsbeurteilung.

Dozenten

Lehrkraftbewertungen
(110 Bewertungen)
Jeff Grossman
IBM
3 Kurse748.543 Lernende
Yan Luo
IBM
7 Kurse407.510 Lernende

von

IBM

Mehr von Datenverwaltung entdecken

Warum entscheiden sich Menschen fĂĽr Coursera fĂĽr ihre Karriere?

Felipe M.

Lernender seit 2018
„Es ist eine großartige Erfahrung, in meinem eigenen Tempo zu lernen. Ich kann lernen, wenn ich Zeit und Nerven dazu habe.“

Jennifer J.

Lernender seit 2020
„Bei einem spannenden neuen Projekt konnte ich die neuen Kenntnisse und Kompetenzen aus den Kursen direkt bei der Arbeit anwenden.“

Larry W.

Lernender seit 2021
„Wenn mir Kurse zu Themen fehlen, die meine Universität nicht anbietet, ist Coursera mit die beste Alternative.“

Chaitanya A.

„Man lernt nicht nur, um bei der Arbeit besser zu werden. Es geht noch um viel mehr. Bei Coursera kann ich ohne Grenzen lernen.“

Bewertungen von Lernenden

  • 5 stars

    71,45 %

  • 4 stars

    17,42 %

  • 3 stars

    6,31 %

  • 2 stars

    2,39 %

  • 1 star

    2,39 %

Zeigt 3 von 458 an

JJ

GeprĂĽft am 22. Juli 2023

SK

GeprĂĽft am 20. Jan. 2025

HT

Geprüft am 31. März 2023

Häufig gestellte Fragen

Âą Einige Aufgaben in diesem Kurs werden mit AI bewertet. FĂĽr diese Aufgaben werden Ihre Daten in Ăśbereinstimmung mit Datenschutzhinweis von Courseraverwendet.