Willkommen zu Einführung in PySpark, einem Kurzkurs, der strategisch darauf ausgerichtet ist, Sie mit den Fähigkeiten auszustatten, die Sie benötigen, um die Konzepte des Big Data Managements zu beurteilen und Datenanalysen mit PySpark effizient durchzuführen. In diesem Kurzkurs erwerben Sie das Fachwissen, um mit PySpark Daten zu verarbeiten, große Datensätze effizient zu handhaben, fortgeschrittene Analysen durchzuführen und wertvolle Erkenntnisse aus verschiedenen Datenquellen abzuleiten. Während dieses Kurzkurses werden Sie die branchenspezifischen Anwendungen von PySpark erkunden. Am Ende dieses Kurses werden Sie in der Lage sein: 1. Ein grundlegendes Verständnis für die Einführung von Big Data, einschließlich seiner Merkmale, Herausforderungen und Bedeutung in modernen datengesteuerten Umgebungen. 2. Vertrautheit mit der Spark-Architektur und ihren Komponenten, wie Spark Core und Spark SQL. 3. Vertrautmachen mit Konzepten des verteilten Rechnens und wie sie auf das parallele Verarbeitungsmodell von Spark angewendet werden. 4. Erforschen von PySpark und Big Data-Konzepten zur Lösung von datenbezogenen Herausforderungen. 5. Schreiben Sie PySpark-Code, um reale Datenanalyse- und -verarbeitungsaufgaben zu lösen. Dieser Kurzkurs richtet sich an Fachkräfte für Datenanalyse, Data Engineers, Data Scientists und Big Data-Entwickler, die ihre Fähigkeiten in der Nutzung von PySpark für die Datenverarbeitung und -analyse verbessern möchten. Vorkenntnisse in Python und Hadoop sind von Vorteil, aber nicht zwingend erforderlich für diesen Kurs.


(48 Bewertungen)
Empfohlene Erfahrung
Was Sie lernen werden
Verstehen Sie die Grundlagen von PySpark, um Big Data mit Python APIs effizient zu verarbeiten.
Anwendung von Echtzeit-Datenverarbeitungstechniken für verwertbare Erkenntnisse.
Erkunden Sie die Spark-Architektur für verteilte Datenverarbeitung und Skalierbarkeit.
Erwerben Sie praktische Fähigkeiten mit PySpark durch praktische Aufgabenstellungen.
Kompetenzen, die Sie erwerben
- Kategorie: Datenanalyse
- Kategorie: Apache Spark
- Kategorie: Skalierbarkeit
- Kategorie: PySpark
- Kategorie: Datenmanagement
- Kategorie: Datenverarbeitung
- Kategorie: Python-Programmierung
- Kategorie: Verteiltes Rechnen
- Kategorie: Apache Hadoop
- Kategorie: Explorative Datenanalyse
Wichtige Details

Zu Ihrem LinkedIn-Profil hinzufügen
5 Aufgaben
Erfahren Sie, wie Mitarbeiter führender Unternehmen gefragte Kompetenzen erwerben.

In diesem Kurs gibt es 1 Modul
Willkommen zu Einführung in PySpark. In diesem kurzen Kurs lernen Sie die grundlegenden Konzepte von PySpark und Bigdata kennen und erfahren, wie Sie mit PySpark Daten in Echtzeit verarbeiten, um nützliche Erkenntnisse aus den Daten zu gewinnen.
Das ist alles enthalten
27 Videos7 Lektüren5 Aufgaben2 Diskussionsthemen1 Plug-in
Mehr von Softwareentwicklung entdecken
Status: Kostenloser Testzeitraum
Status: Kostenloser Testzeitraum
Status: Kostenlos
Status: Kostenloser Testzeitraum
Warum entscheiden sich Menschen für Coursera für ihre Karriere?





Neue Karrieremöglichkeiten mit Coursera Plus
Unbegrenzter Zugang zu 10,000+ Weltklasse-Kursen, praktischen Projekten und berufsqualifizierenden Zertifikatsprogrammen - alles in Ihrem Abonnement enthalten
Bringen Sie Ihre Karriere mit einem Online-Abschluss voran.
Erwerben Sie einen Abschluss von erstklassigen Universitäten – 100 % online
Schließen Sie sich mehr als 3.400 Unternehmen in aller Welt an, die sich für Coursera for Business entschieden haben.
Schulen Sie Ihre Mitarbeiter*innen, um sich in der digitalen Wirtschaft zu behaupten.
Häufig gestellte Fragen
PySpark wird auf verschiedenen Plattformen eingesetzt, darunter Cloud-Services wie Amazon Web Services (AWS), Microsoft Azure und Google Cloud Platform (GCP), sowie auf lokalen Clustern und lokalen Maschinen, was Flexibilität für die verteilte Datenverarbeitung in verschiedenen Umgebungen bietet.
Ja, PySpark ist ein Open Source Framework für verteilte Datenverarbeitung, das frei verfügbar ist. Es ermöglicht Benutzern die effiziente Verarbeitung großer Datensätze mithilfe von Python-APIs auf der verteilten Verarbeitungsmaschine von Apache Spark.
Der Kurs dauert etwa drei Stunden und behandelt Themen wie Big Data, Hadoop, Spark-Architektur und PySpark.
Weitere Fragen
Finanzielle Unterstützung verfügbar,


