Quand aurai-je accès aux cours et aux devoirs ?

Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.

Qu'est-ce que je recevrai si je souscris à cette Specializations ?

Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.

Une aide financière est-elle disponible ?

Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.

Principes de l'apprentissage par renforcement

Principes de l'apprentissage par renforcement

Ce cours fait partie de Spécialisation "Apprentissage par renforcement"

Instructeurs : Martha White

109 463 déjà inscrits

Inclus avec

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

2,901 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

5 modules

Obtenez un aperçu d'un sujet et apprenez les principes fondamentaux.

2,901 avis

niveau Intermédiaire

Expérience recommandée

Planning flexible

2 semaines à 10 heures une semaine

Apprenez à votre propre rythme

92%

La plupart des étudiants ont apprécié ce cours

Ce que vous apprendrez

Formaliser les problèmes sous forme de processus de décision de Markov
Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation
Comprendre les fonctions de valeur, en tant qu'outil général pour une prise de décision optimale
Savoir comment mettre en œuvre la programmation dynamique en tant que solution efficace à un problème de contrôle industriel

Compétences que vous acquerrez

Catégorie : Intelligence décisionnelle
Catégorie : Systèmes agentiques
Catégorie : Algorithmes
Catégorie : Apprentissage automatique
Catégorie : Modèle de Markov
Catégorie : Apprentissage par renforcement
Catégorie : Algorithmes d'apprentissage automatique
Catégorie : Intelligence artificielle

Détails à connaître

Certificat partageable

Ajouter à votre profil LinkedIn

Évaluations

5 affectations¹

Noté par l'IA voir l'avis de non-responsabilité

Enseigné en Anglais

91%

of learners achieved a positive career outcome

Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

En savoir plus sur Coursera pour les affaires

logos de Petrobras, TATA, Danone, Capgemini, P&G et L'Oreal

Élaborez votre expertise du sujet

Ce cours fait partie de la Spécialisation "Apprentissage par renforcement"

Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.

Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable

Il y a 5 modules dans ce cours

L'apprentissage par renforcement est un sous-domaine de l'apprentissage automatique, mais c'est aussi un formalisme général pour la prise de décision automatisée et l'IA. Ce cours vous présente les techniques d'apprentissage statistique dans lesquelles un agent entreprend explicitement des actions et interagit avec le monde. Comprendre l'importance et les défis des agents d'apprentissage qui prennent des décisions est d'une importance vitale aujourd'hui, avec de plus en plus d'entreprises intéressées par les agents interactifs et la prise de décision intelligente.

Ce cours vous présente les principes fondamentaux de l'apprentissage par renforcement. A l'issue de ce cours, vous saurez : - Formaliser les problèmes en tant que processus de décision de Markov - Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation - Comprendre les fonctions de valeur, en tant qu'outil général pour la prise de décision optimale - Savoir comment implémenter la programmation dynamique en tant qu'approche de solution efficace à un problème de contrôle industriel Ce cours vous enseigne les concepts clés de l'apprentissage par renforcement, sous-jacents aux algorithmes classiques et modernes de l'apprentissage par renforcement. A l'issue de ce cours, vous serez en mesure de commencer à utiliser la programmation dynamique pour des problèmes réels, où vous avez ou pouvez spécifier le MDP. Il s'agit du premier cours de la Specialization Reinforcement Learning.

Détails du module

Bienvenue à : Fundamentals of Reinforcement Learning, le premier cours d'une spécialisation en quatre parties sur l'apprentissage par renforcement qui vous est proposée par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs, aurez un aperçu de ce que le cours vous réserve, et recevrez une feuille de route approfondie pour vous aider à rendre votre voyage à travers cette spécialisation aussi fluide que possible.

Inclus

4 vidéos2 lectures1 sujet de discussion

4 vidéosTotal 20 minutes

Introduction à la spécialisation3 minutes
Introduction au cours6 minutes
Rencontrez vos instructeurs !8 minutes
Votre feuille de route en matière de spécialisation3 minutes

2 lecturesTotal 20 minutes

Manuel sur l'apprentissage par renforcement10 minutes
Lisez-moi : Pré-requis et objectifs d'apprentissage10 minutes

1 sujet de discussionTotal 10 minutes

Rencontrez et accueillez !10 minutes

Au cours de la première semaine de ce cours, vous apprendrez à comprendre le compromis exploration-exploitation dans la prise de décision séquentielle, à mettre en œuvre des algorithmes incrémentaux pour estimer les valeurs d'action et à comparer les forces et les faiblesses de différents algorithmes d'exploration. Pour l'évaluation notée de cette semaine, vous implémenterez et testerez un agent epsilon-greedy.

Inclus

8 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion2 plugins

8 vidéosTotal 46 minutes

Prise de décision séquentielle avec retour d'information évaluatif6 minutes
Valeurs de l'action éducative5 minutes
Estimation incrémentale des valeurs d'action5 minutes
Quel est le compromis ?8 minutes
Valeurs initiales optimistes6 minutes
Limite supérieure de confiance (LSC) Sélection des actions5 minutes
Jonathan Langford : Bandits contextuels pour l'apprentissage par renforcement dans le monde réel9 minutes
Résumé de la première semaine3 minutes

3 lecturesTotal 70 minutes

Module 1 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre30 minutes

1 devoirTotal 45 minutes

Prise de décision séquentielle45 minutes

1 devoir de programmationTotal 30 minutes

Bandits et exploration/exploitation30 minutes

1 sujet de discussionTotal 10 minutes

Comparez les bandits à l'apprentissage supervisé10 minutes

2 pluginsTotal 30 minutes

Jouons à un jeu !15 minutes
Qu'y a-t-il en dessous ?15 minutes

Lorsque vous êtes confronté à un problème industriel, la première étape, et la plus importante, consiste à traduire ce problème en un processus décisionnel de Markov (PDM). La qualité de votre solution dépend fortement de la façon dont vous effectuez cette traduction. Cette semaine, vous apprendrez la définition des PDM, vous comprendrez ce qu'est un comportement orienté vers un but et comment il peut être obtenu en maximisant des récompenses scalaires, et vous comprendrez également la différence entre les tâches épisodiques et les tâches continues. Pour l'évaluation notée de cette semaine, vous créerez trois exemples de tâches de votre cru qui s'inscrivent dans le cadre des PDM.

Inclus

7 vidéos2 lectures1 devoir1 évaluation par les pairs1 sujet de discussion

7 vidéosTotal 36 minutes

Processus de décision de Markov7 minutes
Exemples de PDM4 minutes
L'objectif de l'apprentissage par renforcement3 minutes
Michael Littman : L'hypothèse de la récompense12 minutes
Tâches permanentes5 minutes
Exemples de tâches épisodiques et continues3 minutes
Résumé de la semaine 22 minutes

2 lecturesTotal 40 minutes

Objectifs d'apprentissage du module 210 minutes
Lecture hebdomadaire30 minutes

1 devoirTotal 45 minutes

PDM45 minutes

1 évaluation par les pairsTotal 60 minutes

Travail noté : Décrivez trois PDM60 minutes

1 sujet de discussionTotal 10 minutes

L'hypothèse de la récompense est-elle suffisante ?10 minutes

Une fois que le problème est formulé comme un MDP, la recherche de la politique optimale est plus efficace lorsque l'on utilise des fonctions de valeur. Cette semaine, vous apprendrez à définir les politiques et les fonctions de valeur, ainsi que les équations de Bellman, qui est la technologie clé que tous nos algorithmes utiliseront.

Inclus

9 vidéos3 lectures2 devoirs1 sujet de discussion

9 vidéosTotal 56 minutes

Spécification des politiques5 minutes
Fonctions de valeur6 minutes
Rich Sutton et Andy Barto : Une brève histoire de RL8 minutes
Dérivation de l'équation de Bellman6 minutes
Pourquoi les équations de Bellman ?5 minutes
Politiques optimales8 minutes
Fonctions de valeur optimale5 minutes
Utilisation des fonctions de valeur optimale pour obtenir des politiques optimales8 minutes
Résumé de la semaine 34 minutes

3 lecturesTotal 53 minutes

Module 3 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre13 minutes

2 devoirsTotal 90 minutes

[Noté] Fonctions de valeur et équations de Bellman45 minutes
[Pratique] Fonctions de valeur et équations de Bellman45 minutes

1 sujet de discussionTotal 10 minutes

Enregistrement10 minutes

Cette semaine, vous apprendrez à calculer des fonctions de valeur et des politiques optimales, en supposant que vous disposiez du modèle MDP. Vous mettrez en œuvre la programmation dynamique pour calculer les fonctions de valeur et les politiques optimales et comprendrez l'utilité de la programmation dynamique pour les applications et les problèmes industriels. En outre, vous découvrirez l'itération de politique généralisée en tant que modèle commun pour la construction d'algorithmes qui maximisent la récompense. Pour l'évaluation notée de cette semaine, vous mettrez en œuvre un agent de programmation dynamique efficace dans un problème de contrôle industriel simulé.

Inclus

10 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion

10 vidéosTotal 72 minutes

Évaluation et contrôle des politiques5 minutes
Évaluation itérative des politiques9 minutes
Amélioration de la politique4 minutes
Itération de la politique8 minutes
Flexibilité du cadre d'itération des politiques4 minutes
Efficacité de la programmation dynamique5 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (court)8 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (Long)22 minutes
Résumé de la semaine 43 minutes
Félicitations !4 minutes

3 lecturesTotal 70 minutes

Module 4 Objectifs d'apprentissage10 minutes
Lecture hebdomadaire30 minutes
Résumé du chapitre30 minutes

1 devoirTotal 45 minutes

Programmation dynamique45 minutes

1 devoir de programmationTotal 30 minutes

Politiques optimales avec la programmation dynamique30 minutes

1 sujet de discussionTotal 10 minutes

Où pouvez-vous utiliser la programmation dynamique ?10 minutes

Obtenez un certificat professionnel

Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.

Instructeurs

Évaluations de l’enseignant

(835 évaluations)

Martha White

University of Alberta

4 Cours115 552 apprenants

Adam White

University of Alberta

4 Cours115 552 apprenants

Offert par

University of Alberta

Alberta Machine Intelligence Institute

Avis des étudiants

5 stars
81,77 %
4 stars
14,30 %
3 stars
2,61 %
2 stars
0,44 %
1 star
0,86 %

Affichage de 3 sur 2901

Révisé le 6 mai 2023

Excellent course, with a very nice presentation style, both the professors are excellent in their presentations and the material is well researched and delivered. A very valuable course.

Révisé le 11 avr. 2024

The concepts may sound confusing in the beginning, but as you go forward you find it interesting and understanding. I suggest you completely read the reading assignments before watching the videos.

Révisé le 3 déc. 2020

This course was super helpful. I had tried a couple other online introductions to RL, but this was the only one where I could really engage and learn the material effectively. Would recommend!

Voir plus d’avis