Ce cours est une introduction à la prise de décision séquentielle et à l'apprentissage par renforcement. Nous commençons par une discussion sur la théorie de l'utilité pour apprendre comment les préférences peuvent être représentées et modélisées pour la prise de décision. Nous modélisons d'abord des problèmes de décision simples comme des problèmes de bandits à plusieurs bras et discutons de plusieurs approches pour évaluer le retour d'information. Nous modéliserons ensuite les problèmes de décision comme des processus de décision de Markov (PDM) finis, et nous discuterons de leurs solutions par le biais d'algorithmes de programmation dynamique. Nous abordons la notion d'observabilité partielle dans des problèmes réels, modélisés par des POMDP et résolus par des méthodes de planification en ligne. Enfin, nous introduisons le problème de l'apprentissage par renforcement et discutons de deux paradigmes : Les méthodes de Monte Carlo et l'apprentissage par différence temporelle. Nous conclurons le cours en notant comment les deux paradigmes se situent sur un spectre de méthodes de différence temporelle à n étapes. L'accent mis sur les algorithmes et les exemples sera un élément clé de ce cours.

Prise de décision et apprentissage par renforcement

Prise de décision et apprentissage par renforcement

Instructeur : Tony Dear
4 456 déjà inscrits
Inclus avec
23 avis
Expérience recommandée
Ce que vous apprendrez
Établir une correspondance entre les préférences qualitatives et les utilités quantitatives appropriées.
Modéliser les problèmes de décision séquentielle non associatifs et associatifs par des problèmes de bandits à bras multiples et des processus de décision de Markov, respectivement
Mettre en œuvre des algorithmes de programmation dynamique pour trouver des politiques optimales
Mettre en œuvre des algorithmes de base d'apprentissage par renforcement en utilisant les méthodes de Monte Carlo et de différence temporelle
Compétences que vous acquerrez
- Catégorie : Probability Distribution
- Catégorie : Decision Support Systems
- Catégorie : Statistical Methods
- Catégorie : Data-Driven Decision-Making
- Catégorie : Simulations
- Catégorie : Markov Model
- Catégorie : Artificial Intelligence and Machine Learning (AI/ML)
- Catégorie : Reinforcement Learning
- Catégorie : Deep Learning
- Catégorie : Machine Learning
- Catégorie : Algorithms
Détails à connaître

Ajouter à votre profil LinkedIn
8 devoirs
Découvrez comment les employés des entreprises prestigieuses maîtrisent des compétences recherchées

Il y a 8 modules dans ce cours
Instructeur

Offert par
En savoir plus sur Algorithmes

University of Alberta

New York University

Simplilearn

University of Alberta
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?

Felipe M.

Jennifer J.

Larry W.

Chaitanya A.
Avis des étudiants
- 5 stars
65,21 %
- 4 stars
21,73 %
- 3 stars
0 %
- 2 stars
8,69 %
- 1 star
4,34 %
Affichage de 3 sur 23
Révisé le 20 janv. 2024
Very good introductory and basic to Reinforcement Learning. But programming assignments need more careful compilation and more attention to detail!
Révisé le 9 juil. 2023
Well-structured course that provides a great introduction to methodologies used in reinforcement learning. I am now eager to experiment more in my own time, to consolidate what I have learned.

Ouvrez de nouvelles portes avec Coursera Plus
Accès illimité à 10,000+ cours de niveau international, projets pratiques et programmes de certification prêts à l'emploi - tous inclus dans votre abonnement.
Faites progresser votre carrière avec un diplôme en ligne
Obtenez un diplôme auprès d’universités de renommée mondiale - 100 % en ligne
Rejoignez plus de 3 400 entreprises mondiales qui ont choisi Coursera pour les affaires
Améliorez les compétences de vos employés pour exceller dans l’économie numérique
Foire Aux Questions
Plus de questions
Aide financière disponible,

