University of Pittsburgh

Big Data Processing with Hadoop and Spark

Ce cours n'est pas disponible en Français (France)

Nous sommes actuellement en train de le traduire dans plus de langues.
University of Pittsburgh

Big Data Processing with Hadoop and Spark

Dmitriy Babichenko

Instructeur : Dmitriy Babichenko

Inclus avec Coursera Plus

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Préparer un diplôme
Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.
niveau Intermédiaire

Expérience recommandée

9 heures à compléter
Planning flexible
Apprenez à votre propre rythme
Préparer un diplôme

Ce que vous apprendrez

  • Explain how Hadoop and Spark enable large-scale data processing.

  • Build and manage distributed data pipelines using Hadoop frameworks.

  • Implement in-memory analytics and real-time processing with Spark.

  • Apply big data tools to design scalable, data-driven applications.

Compétences que vous acquerrez

  • Catégorie : Predictive Modeling
  • Catégorie : Big Data
  • Catégorie : Scalability
  • Catégorie : Data Pipelines
  • Catégorie : Information Technology
  • Catégorie : Data Analysis
  • Catégorie : Data Storage
  • Catégorie : Data Management
  • Catégorie : Data Storage Technologies
  • Catégorie : Data Processing
  • Catégorie : Data Science
  • Catégorie : Data Transformation
  • Catégorie : Distributed Computing

Outils que vous découvrirez

  • Catégorie : PySpark
  • Catégorie : Python Programming
  • Catégorie : Apache Hive
  • Catégorie : Scikit Learn (Machine Learning Library)
  • Catégorie : Apache Spark
  • Catégorie : Apache Hadoop

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Récemment mis à jour !

février 2026

Évaluations

8 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

 logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Cloud Computing for Data Science"
Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
  • Apprenez de nouveaux concepts auprès d'experts du secteur
  • Acquérez une compréhension de base d'un sujet ou d'un outil
  • Développez des compétences professionnelles avec des projets pratiques
  • Obtenez un certificat professionnel partageable

Il y a 3 modules dans ce cours

This module guides you through the core components of the Hadoop ecosystem, starting with its architecture and distributed file system. You’ll explore how Hadoop processes data, gain insight into its broader ecosystem, and apply your knowledge in hands-on activities using both Docker and a Linux virtual machine.

Inclus

6 vidéos1 lecture3 devoirs

This module introduces you to key programming models for distributed data processing, with a focus on MapReduce and its practical applications. You'll explore core concepts and terminology, work through guided code walkthroughs using Python to implement word count and server log analysis tasks, and gain experience using Apache Pig for data transformation. You'll also gain hands-on experience writing data transformation scripts in Apache Pig, culminating in an assignment that applies these skills to web log analysis.

Inclus

6 vidéos6 lectures3 devoirs

This module introduces you to Apache Spark, covering its core concepts, architecture, and machine learning capabilities through MLlib. You’ll learn how to set up Spark using Docker and Linux VM, explore how PySpark operates within the Spark framework, and compare Spark MLlib with scikit-learn through hands-on code walkthroughs. By the end of the module, you'll apply what you've learned in graded activities and an assignment focused on building a predictive model with PySpark and MLlib.

Inclus

5 vidéos3 lectures2 devoirs

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Préparer un diplôme

Ce site cours fait partie du (des) programme(s) diplômant(s) suivant(s) proposé(s) par University of Pittsburgh. Si vous êtes admis et que vous vous inscrivez, les cours que vous avez suivis peuvent compter pour l'apprentissage de votre diplôme et vos progrès peuvent être transférés avec vous.¹

Instructeur

Dmitriy Babichenko
University of Pittsburgh
4 Cours 2 287 apprenants

Offert par

En savoir plus sur Data Management

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Coursera Plus

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions