PySpark : Appliquer et évaluer des modèles prédictifs de ML

Ce cours fait partie de Spécialisation "Spark et Python pour le Big data avec PySpark"

Instructeur : EDUCBA

Inclus avec

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

12 avis

5 heures à compléter

Planning flexible

Apprenez à votre propre rythme

2 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

12 avis

5 heures à compléter

Planning flexible

Apprenez à votre propre rythme

Ce que vous apprendrez

Construire et évaluer des modèles de régression dans PySpark en utilisant des méthodes linéaires, GLM et d'ensemble.
Appliquer la régression logistique, les arbres décisionnels et les Forêts d'arbres décisionnels pour la classification.
Mettre en œuvre le clustering K-moyennes et évaluer les flux de travail ML évolutifs avec PySpark.

Compétences que vous acquerrez

Catégorie : Modèle de formation
Catégorie : Apprentissage non supervisé
Catégorie : Analyse avancée
Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Régression logistique
Catégorie : Apprentissage automatique appliqué
Catégorie : Analyse prédictive
Catégorie : Modélisation prédictive
Catégorie : Analyse de régression
Catégorie : Apprentissage par arbre de décision
Catégorie : Algorithme de la forêt aléatoire
Catégorie : Évaluation du modèle
Catégorie : Méthodes d'apprentissage automatique
Catégorie : Pipelines de données

Outils que vous découvrirez

Catégorie : Algorithmes de classification
Catégorie : Apache Spark
Catégorie : PySpark

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

7 devoirs

Enseigné en Anglais

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Spark et Python pour le Big data avec PySpark"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 2 modules dans ce cours

Ce cours de niveau intermédiaire permet aux apprenants d'appliquer, d'analyser et d'évaluer des modèles d'apprentissage automatique en utilisant le cadre de calcul distribué d'Apache PySpark. Conçu pour les professionnels des données familiers avec Python et les concepts de base de l'apprentissage automatique, le cours explore la mise en œuvre réelle des techniques de régression et de classification, ainsi que le clustering non supervisé. Dans le module 1, les apprenants construiront des modèles de régression linéaire et généralisée, appliqueront des régresseurs d'ensemble tels que les Forêts d'arbres, et évalueront la performance prédictive à l'aide de mesures telles que RMSE et R-carré. Le module se termine par un examen approfondi de la régression logistique pour les tâches de classification binaire. Le module 2 s'appuie sur ces fondations pour couvrir la classification multi-classes en utilisant la régression logistique multinomiale et les arbres décisionnels. Les apprenants évalueront également des modèles ensembliste comme les Forêts d'arbres décisionnels pour une classification robuste, et exploreront le clustering K-moyennes pour les problèmes d'apprentissage non supervisé. Chaque concept est renforcé par des démonstrations guidées de code PySpark, des flux de travail prédictifs et des évaluations pratiques utilisant de grands ensembles de données. À la fin du cours, les apprenants seront en mesure de concevoir, d'exécuter et d'évaluer de manière critique des modèles d'apprentissage automatique dans PySpark pour des solutions d'analytique des données évolutives.

Ce module présente aux apprenants les techniques fondamentales et avancées de modélisation de la régression à l'aide de la MLlib de PySpark. Les apprenants commencent par les flux de travail de régression linéaire de base, y compris la préparation des données, l'assemblage des caractéristiques et la prédiction. Ils progressent ensuite vers des modèles plus complexes tels que la Régression linéaire généralisée et les techniques d'ensemble comme la Régression Forêts d'arbres décisionnels. Le module se termine par des modèles de régression logistique conçus pour la classification binaire, permettant aux apprenants de construire et d'évaluer des pipelines d'apprentissage automatique évolutifs pour l'analytique prédictive dans des environnements distribués.

Inclus

11 vidéos4 devoirs

11 vidéosTotal 88 minutes

Introduction à Pyspark Intermédiaire1 minute
Régénération de la doublure9 minutes
Colonne de sortie6 minutes
Données d'essai7 minutes
Prédiction7 minutes
Régression linéaire généralisée11 minutes
Réglementation forestière12 minutes
Régression logistique binomiale Partie 19 minutes
Régression logistique binomiale Partie 27 minutes
Régression logistique binomiale Partie 39 minutes
Régression logistique binomiale Partie 411 minutes

4 devoirsTotal 60 minutes

Premiers pas avec les modèles linéaires10 minutes
Modèles de régression avancés10 minutes
Modèles de régression logistique10 minutes
Gradé - Techniques de régression dans PySpark30 minutes

Ce module dote les apprenants de la capacité à construire, former et évaluer des modèles de classification et de clustering à l'aide de la bibliothèque d'apprentissage automatique de PySpark. Il couvre les applications pratiques de la régression logistique multinomiale pour les problèmes multi-classes, les classificateurs Arbre décisionnel pour les prédictions basées sur des règles, les méthodes d'ensemble comme les Forêts d'arbres décisionnels pour une meilleure généralisation, et les techniques de clustering non supervisées utilisant l'algorithme K-moyennes. Grâce à des démonstrations pratiques, les apprenants acquièrent des compétences dans la préparation des données, la configuration des modèles, l'interprétation des prédictions et l'évaluation des performances des modèles dans des environnements distribués à grande échelle.

Inclus

5 vidéos3 devoirs

5 vidéosTotal 37 minutes

Régression logistique multinomiale9 minutes
Régression logistique multinomiale Continuer6 minutes
Arbre de décision7 minutes
Forêts d'arbres décisionnels7 minutes
Modèle K-moyennes9 minutes

3 devoirsTotal 50 minutes

Modèles multinomiaux et arbres décisionnels10 minutes
Techniques d'ensemble et de regroupement10 minutes
Graded - Classification et clustering avec PySpark30 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeur

EDUCBA

1 213 Cours285 051 apprenants

Offert par

EDUCBA

En savoir plus sur Analyse des données

Statut : Essai gratuit
Edureka
Machine Learning with PySpark
Cours
Statut : Essai gratuit
EDUCBA
PySpark: Apply & Analyze Advanced Data Processing
Cours
Statut : Essai gratuit
Edureka
PySpark for Data Science
Spécialisation
Statut : Essai gratuit
EDUCBA
PySpark & Python: Hands-On Guide to Data Processing
Cours

Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Étudiant(e) depuis 2018

’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’

Jennifer J.

Étudiant(e) depuis 2020

’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’

Larry W.

Étudiant(e) depuis 2021

’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’

Chaitanya A.

’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’

Avis des étudiants

5 stars
100 %
4 stars
0 %
3 stars
0 %
2 stars
0 %
1 star
0 %

Affichage de 3 sur 12

Révisé le 12 avr. 2026

From data preparation to model evaluation, every lesson is gold. The unique focus on Spark's scalability makes this a standout machine learning course for professionals.

Révisé le 11 avr. 2026

Best PySpark ML course out there. Balanced theory with coding—highly recommend for data engineers.

Révisé le 29 mars 2026

A game-changer for my workflow. The techniques for feature engineering and model selection have streamlined my data science projects and improved my overall output.

Voir plus d’avis

Ouvrez de nouvelles portes avec Coursera Plus

Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.

Faites progresser votre carrière avec un diplôme en ligne

Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne

Découvrir les diplômes

Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires

Améliorez les compétences de vos employés pour exceller dans l’économie numérique

Foire Aux Questions

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.