Lorsque vous vous inscrivez à ce cours, vous êtes également inscrit(e) à cette Spécialisation.
Apprenez de nouveaux concepts auprès d'experts du secteur
Acquérez une compréhension de base d'un sujet ou d'un outil
Développez des compétences professionnelles avec des projets pratiques
Obtenez un certificat professionnel partageable
Il y a 5 modules dans ce cours
L'apprentissage par renforcement est un sous-domaine de l'apprentissage automatique, mais c'est aussi un formalisme général pour la prise de décision automatisée et l'IA. Ce cours vous présente les techniques d'apprentissage statistique dans lesquelles un agent entreprend explicitement des actions et interagit avec le monde. Comprendre l'importance et les défis des agents d'apprentissage qui prennent des décisions est d'une importance vitale aujourd'hui, avec de plus en plus d'entreprises intéressées par les agents interactifs et la prise de décision intelligente.
Ce cours vous présente les principes fondamentaux de l'apprentissage par renforcement. A l'issue de ce cours, vous saurez : - Formaliser les problèmes en tant que processus de décision de Markov - Comprendre les méthodes d'exploration de base et le compromis exploration/exploitation - Comprendre les fonctions de valeur, en tant qu'outil général pour la prise de décision optimale - Savoir comment implémenter la programmation dynamique en tant qu'approche de solution efficace à un problème de contrôle industriel Ce cours vous enseigne les concepts clés de l'apprentissage par renforcement, sous-jacents aux algorithmes classiques et modernes de l'apprentissage par renforcement. A l'issue de ce cours, vous serez en mesure de commencer à utiliser la programmation dynamique pour des problèmes réels, où vous avez ou pouvez spécifier le MDP.
Il s'agit du premier cours de la Specialization Reinforcement Learning.
Bienvenue à : Fundamentals of Reinforcement Learning, le premier cours d'une spécialisation en quatre parties sur l'apprentissage par renforcement qui vous est proposée par l'Université de l'Alberta, Onlea et Coursera. Dans ce module pré-cours, vous serez présenté à vos instructeurs, aurez un aperçu de ce que le cours vous réserve, et recevrez une feuille de route approfondie pour vous aider à rendre votre voyage à travers cette spécialisation aussi fluide que possible.
Inclus
4 vidéos2 lectures1 sujet de discussion
Afficher les informations sur le contenu du module
4 vidéos•Total 20 minutes
Introduction à la spécialisation•3 minutes
Introduction au cours•6 minutes
Rencontrez vos instructeurs !•8 minutes
Votre feuille de route en matière de spécialisation•3 minutes
2 lectures•Total 20 minutes
Manuel sur l'apprentissage par renforcement•10 minutes
Lisez-moi : Pré-requis et objectifs d'apprentissage•10 minutes
1 sujet de discussion•Total 10 minutes
Rencontrez et accueillez !•10 minutes
Introduction à la prise de décision séquentielle
Module 2•4 heures à terminer
Détails du module
Au cours de la première semaine de ce cours, vous apprendrez à comprendre le compromis exploration-exploitation dans la prise de décision séquentielle, à mettre en œuvre des algorithmes incrémentaux pour estimer les valeurs d'action et à comparer les forces et les faiblesses de différents algorithmes d'exploration. Pour l'évaluation notée de cette semaine, vous implémenterez et testerez un agent epsilon-greedy.
Inclus
8 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion2 plugins
Afficher les informations sur le contenu du module
8 vidéos•Total 46 minutes
Prise de décision séquentielle avec retour d'information évaluatif•6 minutes
Valeurs de l'action éducative•5 minutes
Estimation incrémentale des valeurs d'action•5 minutes
Quel est le compromis ?•8 minutes
Valeurs initiales optimistes•6 minutes
Limite supérieure de confiance (LSC) Sélection des actions•5 minutes
Jonathan Langford : Bandits contextuels pour l'apprentissage par renforcement dans le monde réel•9 minutes
Résumé de la première semaine•3 minutes
3 lectures•Total 70 minutes
Module 1 Objectifs d'apprentissage•10 minutes
Lecture hebdomadaire•30 minutes
Résumé du chapitre•30 minutes
1 devoir•Total 45 minutes
Prise de décision séquentielle•45 minutes
1 devoir de programmation•Total 30 minutes
Bandits et exploration/exploitation•30 minutes
1 sujet de discussion•Total 10 minutes
Comparez les bandits à l'apprentissage supervisé•10 minutes
2 plugins•Total 30 minutes
Jouons à un jeu !•15 minutes
Qu'y a-t-il en dessous ?•15 minutes
Processus de décision de Markov
Module 3•3 heures à terminer
Détails du module
Lorsque vous êtes confronté à un problème industriel, la première étape, et la plus importante, consiste à traduire ce problème en un processus décisionnel de Markov (PDM). La qualité de votre solution dépend fortement de la façon dont vous effectuez cette traduction. Cette semaine, vous apprendrez la définition des PDM, vous comprendrez ce qu'est un comportement orienté vers un but et comment il peut être obtenu en maximisant des récompenses scalaires, et vous comprendrez également la différence entre les tâches épisodiques et les tâches continues. Pour l'évaluation notée de cette semaine, vous créerez trois exemples de tâches de votre cru qui s'inscrivent dans le cadre des PDM.
Inclus
7 vidéos2 lectures1 devoir1 évaluation par les pairs1 sujet de discussion
Afficher les informations sur le contenu du module
7 vidéos•Total 36 minutes
Processus de décision de Markov•7 minutes
Exemples de PDM•4 minutes
L'objectif de l'apprentissage par renforcement•3 minutes
Michael Littman : L'hypothèse de la récompense•12 minutes
Tâches permanentes•5 minutes
Exemples de tâches épisodiques et continues•3 minutes
Résumé de la semaine 2•2 minutes
2 lectures•Total 40 minutes
Objectifs d'apprentissage du module 2•10 minutes
Lecture hebdomadaire•30 minutes
1 devoir•Total 45 minutes
PDM•45 minutes
1 évaluation par les pairs•Total 60 minutes
Travail noté : Décrivez trois PDM•60 minutes
1 sujet de discussion•Total 10 minutes
L'hypothèse de la récompense est-elle suffisante ?•10 minutes
Fonctions de valeur et équations de Bellman
Module 4•3 heures à terminer
Détails du module
Une fois que le problème est formulé comme un MDP, la recherche de la politique optimale est plus efficace lorsque l'on utilise des fonctions de valeur. Cette semaine, vous apprendrez à définir les politiques et les fonctions de valeur, ainsi que les équations de Bellman, qui est la technologie clé que tous nos algorithmes utiliseront.
Inclus
9 vidéos3 lectures2 devoirs1 sujet de discussion
Afficher les informations sur le contenu du module
9 vidéos•Total 56 minutes
Spécification des politiques•5 minutes
Fonctions de valeur•6 minutes
Rich Sutton et Andy Barto : Une brève histoire de RL•8 minutes
Dérivation de l'équation de Bellman•6 minutes
Pourquoi les équations de Bellman ?•5 minutes
Politiques optimales•8 minutes
Fonctions de valeur optimale•5 minutes
Utilisation des fonctions de valeur optimale pour obtenir des politiques optimales•8 minutes
Résumé de la semaine 3•4 minutes
3 lectures•Total 53 minutes
Module 3 Objectifs d'apprentissage•10 minutes
Lecture hebdomadaire•30 minutes
Résumé du chapitre•13 minutes
2 devoirs•Total 90 minutes
[Noté] Fonctions de valeur et équations de Bellman•45 minutes
[Pratique] Fonctions de valeur et équations de Bellman•45 minutes
1 sujet de discussion•Total 10 minutes
Enregistrement•10 minutes
Programmation dynamique
Module 5•4 heures à terminer
Détails du module
Cette semaine, vous apprendrez à calculer des fonctions de valeur et des politiques optimales, en supposant que vous disposiez du modèle MDP. Vous mettrez en œuvre la programmation dynamique pour calculer les fonctions de valeur et les politiques optimales et comprendrez l'utilité de la programmation dynamique pour les applications et les problèmes industriels. En outre, vous découvrirez l'itération de politique généralisée en tant que modèle commun pour la construction d'algorithmes qui maximisent la récompense. Pour l'évaluation notée de cette semaine, vous mettrez en œuvre un agent de programmation dynamique efficace dans un problème de contrôle industriel simulé.
Inclus
10 vidéos3 lectures1 devoir1 devoir de programmation1 sujet de discussion
Afficher les informations sur le contenu du module
10 vidéos•Total 72 minutes
Évaluation et contrôle des politiques•5 minutes
Évaluation itérative des politiques•9 minutes
Amélioration de la politique•4 minutes
Itération de la politique•8 minutes
Flexibilité du cadre d'itération des politiques•4 minutes
Efficacité de la programmation dynamique•5 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (court)•8 minutes
Warren Powell : Programmation dynamique approximative pour la gestion de flotte (Long)•22 minutes
Résumé de la semaine 4•3 minutes
Félicitations !•4 minutes
3 lectures•Total 70 minutes
Module 4 Objectifs d'apprentissage•10 minutes
Lecture hebdomadaire•30 minutes
Résumé du chapitre•30 minutes
1 devoir•Total 45 minutes
Programmation dynamique•45 minutes
1 devoir de programmation•Total 30 minutes
Politiques optimales avec la programmation dynamique•30 minutes
1 sujet de discussion•Total 10 minutes
Où pouvez-vous utiliser la programmation dynamique ?•10 minutes
Obtenez un certificat professionnel
Ajoutez ce titre à votre profil LinkedIn, à votre curriculum vitae ou à votre CV. Partagez-le sur les médias sociaux et dans votre évaluation des performances.
Instructeurs
Évaluations de l’enseignant
Évaluations de l’enseignant
Nous avons demandé à tous les étudiants de fournir des commentaires sur nos enseignants au sujet de la qualité de leur pédagogie.
L'Université de l'Alberta est considérée comme l'une des meilleures universités publiques à forte intensité de recherche et d'enseignement au monde, reconnue pour son excellence dans les domaines des sciences humaines, des sciences, des arts créatifs, des affaires, de l'ingénierie et des sciences de la santé. En tant que l'une des meilleures universités du Canada, nous investissons dans un enseignement postsecondaire en ligne conçu à cet effet - ancré dans des pédagogies numériques innovantes, un corps professoral de classe mondiale, une conception exceptionnelle et une expérience étudiante défendue.
L'Alberta Machine Intelligence Institute (Amii) accueille certains des plus grands talents mondiaux dans le domaine de l'intelligence artificielle. Nous sommes un institut de recherche basé en Alberta qui repousse les limites de la connaissance académique et guide la compréhension de l'intelligence artificielle et de l'apprentissage automatique par les entreprises.
Pour quelles raisons les étudiants sur Coursera nous choisissent-ils pour leur carrière ?
Felipe M.
Étudiant(e) depuis 2018
’Pouvoir suivre des cours à mon rythme à été une expérience extraordinaire. Je peux apprendre chaque fois que mon emploi du temps me le permet et en fonction de mon humeur.’
Jennifer J.
Étudiant(e) depuis 2020
’J'ai directement appliqué les concepts et les compétences que j'ai appris de mes cours à un nouveau projet passionnant au travail.’
Larry W.
Étudiant(e) depuis 2021
’Lorsque j'ai besoin de cours sur des sujets que mon université ne propose pas, Coursera est l'un des meilleurs endroits où se rendre.’
Chaitanya A.
’Apprendre, ce n'est pas seulement s'améliorer dans son travail : c'est bien plus que cela. Coursera me permet d'apprendre sans limites.’
Avis des étudiants
4.8
2 901 avis
5 stars
81,77 %
4 stars
14,30 %
3 stars
2,61 %
2 stars
0,44 %
1 star
0,86 %
Affichage de 3 sur 2901
S
SM
5·
Révisé le 6 mai 2023
Excellent course, with a very nice presentation style, both the professors are excellent in their presentations and the material is well researched and delivered. A very valuable course.
M
MN
5·
Révisé le 11 avr. 2024
The concepts may sound confusing in the beginning, but as you go forward you find it interesting and understanding. I suggest you completely read the reading assignments before watching the videos.
K
KL
5·
Révisé le 3 déc. 2020
This course was super helpful. I had tried a couple other online introductions to RL, but this was the only one where I could really engage and learn the material effectively. Would recommend!
Pour accéder aux supports de cours, aux devoirs et pour obtenir un certificat, vous devez acheter l'expérience de certificat lorsque vous vous inscrivez à un cours. Vous pouvez essayer un essai gratuit ou demander une aide financière. Le cours peut proposer l'option "Cours complet, pas de certificat". Cette option vous permet de consulter tous les supports de cours, de soumettre les évaluations requises et d'obtenir une note finale. Cela signifie également que vous ne pourrez pas acheter un certificat d'expérience.
Qu'est-ce que je recevrai si je souscris à cette Specializations ?
Lorsque vous vous inscrivez au cours, vous avez accès à tous les cours de la spécialisation et vous obtenez un certificat lorsque vous terminez le travail. Votre certificat électronique sera ajouté à votre page Réalisations - de là, vous pouvez imprimer votre certificat ou l'ajouter à votre profil LinkedIn.
Une aide financière est-elle disponible ?
Oui, pour certains programmes de formation, vous pouvez demander une aide financière ou une bourse si vous n'avez pas les moyens de payer les frais d'inscription. Si une aide financière ou une bourse est disponible pour votre programme de formation, vous trouverez un lien pour postuler sur la page de description.