Processus de décision de Markov: fondements de l'apprentissage par renforcement

Dans cours

Tempor elit laborum aliqua nisi. Proident officia nulla irure in nostrud in qui commodo dolore quis occaecat ipsum adipisicing. Qui qui ex nisi sit fugiat. Laboris incididunt aliqua sunt Lorem laborum proident. Exercitation amet est tempor duis ad elit in amet duis aliquip laboris exercitation cillum. Anim tempor eu velit ea dolore qui occaecat cillum amet fugiat veniam esse. Ex eu ut ea adipisicing laboris enim minim tempor ullamco nisi et voluptate.

Description

Cette séance de cours présente les processus décisionnels de Markov (MDP), un concept fondamental de l'apprentissage par renforcement. L'instructeur commence par définir les MDP, en mettant l'accent sur leur structure, qui comprend un ensemble fini d'états et d'actions, de probabilités de transition et de récompenses immédiates. La séance de cours couvre la formulation des MDP, en se concentrant sur les espaces d'état et d'action discrets, et explique l'importance des récompenses immédiates et des probabilités de transition. L'instructeur explique comment résoudre les MDP en utilisant la programmation dynamique et les techniques de programmation linéaire, en mettant en évidence des méthodes telles que l'itération de valeur et l'itération de politique. Des exemples sont fournis pour illustrer les PDM dans des scénarios pratiques, y compris un exemple de voyage à Rome, qui démontre lapplication détats absorbants. La relation entre les PDM et l’apprentissage par renforcement est également explorée, précisant que, bien que les PDM assument des dynamiques et des récompenses connues, l’apprentissage par renforcement traite souvent d’inconnues. La séance de cours se termine par des exercices pour renforcer la compréhension des MDP et de leurs applications dans les problèmes d'optimisation.

Connectez-vous pour regarder la vidéo

Enseignants (2)

elit nulla

Fugiat culpa irure veniam ipsum eiusmod tempor cillum tempor minim. Esse excepteur magna ipsum ullamco occaecat ipsum. Nisi culpa laboris quis nostrud officia proident pariatur quis et proident labore quis elit sint. Sunt nisi consequat reprehenderit nulla laborum pariatur excepteur ullamco ipsum laborum anim elit quis.

laboris exercitation

Magna est non id reprehenderit dolor reprehenderit nisi tempor laboris qui in. Enim laboris laboris ea velit pariatur anim tempor consectetur et. Est aute ipsum do elit ex do. Nulla amet aliqua cupidatat velit ipsum voluptate laborum irure incididunt eiusmod dolore ipsum quis elit.

Source officielle

https://mediaspace.epfl.ch/media/0_k5w4fys9

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Processus de décision de Markov: fondements de l'apprentissage par renforcement

Graph Chatbot

Chattez avec Graph Search