Apprentissage par renforcement : algorithme SARSA

À propos
Confidentialité
Mentions légales

Graph Chatbot

Séances de cours associées (30)

Méthodes de gradient de politique: exemple de neurone unique

Couvre les méthodes de gradient de politique utilisant un seul neurone avec une sortie binaire.

Apprentissage automatique avancé : apprentissage par renforcement discret

Présente les bases de l'apprentissage par renforcement, couvrant les états discrets, les actions, les politiques, les fonctions de valeur, les PDM et les politiques optimales.

Apprendre à trouver un objectif

Plonge dans une version biologiquement inspirée de l'apprentissage par renforcement, en se concentrant sur la navigation dans le labyrinthe et la mise en œuvre des neurones de stimulation.

Apprentissage par renforcement profond basé sur des modèles: Monte Carlo Tree Search

Explore l'apprentissage par renforcement profond basé sur des modèles, en se concentrant sur Monte Carlo Tree Search et ses applications dans les stratégies de jeu et les processus décisionnels.

Renforcement de l'apprentissage axé sur les données

Discute des défis dans les systèmes d'IA, des limitations d'apprentissage supervisé, et de la nécessité de méthodes fondées sur les données pour renforcer l'apprentissage.

Principes fondamentaux de l'apprentissage par renforcement

Plongez dans les bases de l'apprentissage par renforcement, en discutant des états, des actions, des récompenses, des politiques et des applications de réseaux neuronaux.

Introduction à l'apprentissage par renforcement: concepts et applications clés

Introduit l'apprentissage par renforcement, couvrant ses définitions, ses applications et ses fondements théoriques, tout en décrivant la structure et les objectifs du cours.

Renforcement des principes de l'apprentissage grâce à la rétroaction humaine

Intensifier l'apprentissage avec la rétroaction humaine, discuter de la convergence des estimateurs et introduire une approche pessimiste pour améliorer les performances.

Relation de l'équation de SARSA et de Bellman

Explore la relation entre la fluctuation des valeurs Q dans le SARSA et l'équation de Bellman par le biais des attentes et de la constance des politiques.

Acteur-Critique Architecture et Avantage-Acteur-Critique

Explore les réseaux acteur-critique et la méthode critique acteur avantage pour optimiser les paramètres pour maximiser le rendement.

Page 2 sur 2