Bienvenue à l'Introduction à PySpark, un cours de courte durée stratégiquement conçu pour vous donner les compétences nécessaires pour évaluer les concepts de la Gestion des données à grande échelle et effectuer efficacement l'analyse des données en cours d'utilisation. Tout au long de ce cours, vous allez acquérir l'expertise nécessaire pour effectuer le traitement des données avec PySpark, ce qui vous permettra de traiter efficacement des ensembles de données à grande échelle, de mener des analyses avancées et de tirer des informations précieuses de diverses sources de données. Au cours de ce cours, vous explorerez les applications spécifiques à l'industrie de PySpark. A la fin de ce cours, vous serez capable de : 1. Obtenir une compréhension de base de l'introduction du Big data, y compris ses caractéristiques, ses défis et son importance dans les environnements modernes axés sur les données. 2. Se familiariser avec l'architecture Spark et ses composants, tels que Spark Core et Spark SQL. 3. Se familiariser avec les concepts de l'informatique distribuée et la façon dont ils s'appliquent au modèle de traitement parallèle de Spark. 4. Explorer PySpark et les concepts de Big data pour résoudre les défis liés aux données. 5. Écrire du code PySpark pour résoudre des tâches d'analyse et de traitement de données du monde réel. Ce cours de courte durée est conçu pour les analystes de données, les ingénieurs de données, les scientifiques de données et les développeurs de Big data qui cherchent à améliorer leurs compétences dans l'utilisation de PySpark pour le traitement et l'analyse des données. Une expérience préalable avec Python et Hadoop est bénéfique, mais pas obligatoire pour ce cours.


(48 avis)
Expérience recommandée
Ce que vous apprendrez
Comprendre les fondamentaux de PySpark pour traiter efficacement les Big data en cours d'utilisation des API Python.
Appliquer des techniques de traitement des données en temps réel pour obtenir des informations exploitables.
Explorer l'architecture de Spark pour le calcul distribué et l'évolutivité.
Construire des compétences pratiques avec PySpark à travers des travaux pratiques.
Compétences que vous acquerrez
- Catégorie : Analyse des Données
- Catégorie : Apache Spark
- Catégorie : Évolutivité
- Catégorie : PySpark
- Catégorie : Gestion des données
- Catégorie : Traitement des données
- Catégorie : Programmation en Python
- Catégorie : Informatique distribuée
- Catégorie : Apache Hadoop
- Catégorie : Analyse exploratoire des données (AED)
Détails à connaître

Ajouter à votre profil LinkedIn
5 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Il y a un module dans ce cours
Bienvenue à l'Introduction à PySpark. Dans ce court cours, vous découvrirez les concepts fondamentaux de PySpark et du Bigdata, et apprendrez à effectuer des traitements de données en temps réel avec PySpark afin d'obtenir des informations utiles à partir des données.
Inclus
27 vidéos7 lectures5 devoirs2 sujets de discussion1 plugin
En savoir plus sur Développement de logiciels
Statut : Essai gratuit
Statut : Essai gratuit
Statut : Gratuit
Statut : Essai gratuit
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?





Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
PySpark est utilisé sur diverses plateformes, notamment des services cloud comme Amazon Web Services (AWS), Microsoft Azure et Google Cloud Platform (GCP), ainsi que des clusters sur site et des machines locales, ce qui offre une grande flexibilité pour le traitement des données distribuées dans différents environnements.
Oui, PySpark est un cadre de calcul distribué open source qui est disponible gratuitement. Il permet aux utilisateurs de traiter efficacement des ensembles de données à grande échelle en cours d'utilisation Python sur le moteur de traitement distribué d'Apache Spark.
Le cours dure environ trois heures et couvre des sujets tels que le Big data, Hadoop, l'architecture Spark et PySpark.
Plus de questions
Aide financière disponible,


