Apprentissage automatique avancé : apprentissage par renforcement discret

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (31)

Page 3 sur 4

Accélération de l'itération de valeur : fractionnement de l'opérateur et de l'IDP

Explore l'accélération de l'algorithme d'itération de valeur en utilisant la théorie de contrôle et les techniques de fractionnement de matrice pour atteindre une convergence plus rapide.

Acquérir des données pour l'apprentissage : approches et défis modernes

Explore les approches et les défis modernes en matière d'acquisition de données pour l'apprentissage de contrôleurs optimaux au moyen de démonstrations et de méthodes axées sur les données.

Principes fondamentaux de l'apprentissage par renforcement

Plongez dans les bases de l'apprentissage par renforcement, en discutant des états, des actions, des récompenses, des politiques et des applications de réseaux neuronaux.

Agents d'apprentissage: Tradeoff Exploration-Exploitation

Explore le compromis exploration-exploitation dans l'apprentissage des effets inconnus des actions en utilisant des bandits multi-armés et Q-learning.

Mini-bateaux dans l'apprentissage de renforcement profond sur-et-hors-politique

Explique l'importance des mini-lots dans l'apprentissage par renforcement profond et les différences entre les méthodes on-policy et off-policy.

Apprentissage par renforcement : horizon en une étape (problèmes de bande)

Couvre les problèmes de bandits dans l'apprentissage par renforcement, en se concentrant sur les jeux d'horizon en une étape et les valeurs Q.

Perception : Approches fondées sur les données

Explore la perception dans l'apprentissage profond pour les véhicules autonomes, couvrant la classification d'image, les méthodes d'optimisation, et le rôle de la représentation dans l'apprentissage automatique.

Renforcement de l'apprentissage pour Pacman

Couvre l'application de l'apprentissage du renforcement pour enseigner à Pacman de jouer de manière autonome par essai et erreur.

Espace continu: espace d'action

Couvre les méthodes de transfert des techniques des espaces discrets aux espaces continus dans l'apprentissage du renforcement.

Chaînes de Markov: bases et applications

Présente les chaînes de Markov, couvrant les bases, les algorithmes de génération et les applications dans les promenades aléatoires et les processus de Poisson.