Ce cours présente aux débutants les concepts fondamentaux et intermédiaires du traitement des données distribuées à l'aide d'Apache Spark, l'un des moteurs les plus puissants pour l'analytique à grande échelle. À travers deux modules progressivement structurés, les apprenants identifieront l'architecture de Spark, décriront ses composants de base et démontreront des constructions de programmation clés telles que les RDD (Resilient Distributed Datasets). Dans le module 1, les apprenants reconnaîtront les principes derrière le modèle transformateur distribué de Spark et illustreront les transformations RDD de base. Dans le module 2, ils appliqueront une logique de transformation avancée, mettront en œuvre des stratégies de persistance et différencieront les formats de fichiers tels que CSV, JSON, Parquet et Avro pour un traitement efficace des données. À la fin du cours, les apprenants seront en mesure d'analyser les applications Spark pour l'optimisation, d'évaluer les stratégies de stockage et de développer des flux de travail de traitement de données évolutifs en utilisant les API de base de Spark. Le cours mélange la clarté conceptuelle avec des exemples pratiques pour équiper les apprenants pour les défis Big data du monde réel.

Apache Spark : Appliquer et évaluer les flux de travail Big data

Apache Spark : Appliquer et évaluer les flux de travail Big data
Ce cours fait partie de Spécialisation "Spark et Python pour le Big data avec PySpark"

Instructeur : EDUCBA
Inclus avec
Ce que vous apprendrez
Décrire l'architecture de Spark, les composants de base et les constructions de programmation RDD.
Appliquer des transformations, la persistance, et gérer plusieurs formats de fichiers dans Spark.
Développez des flux de travail évolutifs et évaluez les applications Spark pour les optimiser.
Compétences que vous acquerrez
- Catégorie : Performance Tuning
- Catégorie : Distributed Computing
- Catégorie : Data Transformation
- Catégorie : Data Processing
- Catégorie : Big Data
Outils que vous découvrirez
- Catégorie : PySpark
- Catégorie : JSON
- Catégorie : Scala Programming
- Catégorie : Apache Spark
- Catégorie : Data Persistence
Détails à connaître

Ajouter à votre profil LinkedIn
6 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Élaborez votre expertise du sujet
- Apprenez de nouveaux concepts auprès d'experts du secteur
- Acquérez une compréhension de base d'un sujet ou d'un outil
- Développez des compétences professionnelles avec des projets pratiques
- Obtenez un certificat professionnel partageable

En savoir plus sur Analyse des Données

University of Pittsburgh

École Polytechnique Fédérale de Lausanne
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Plus de questions
Aide financière disponible,



