Concept

Apprentissage par renforcement

L'apprentissage sécuritaire en robotique : Quo Vadis?

Explore l'apprentissage sécuritaire en robotique, couvrant l'état de l'art, les défis ouverts et la vision sur le terrain, soulignant l'importance de la collaboration interdisciplinaire.

Séance de cours interactive : Apprentissage du renforcement

Explore les sujets d'apprentissage avancés du renforcement, y compris les politiques, les fonctions de valeur, la récursion de Bellman et le contrôle de la TD sur les politiques.

Renforcement de l’apprentissage : l’apprentissage basé sur la récompense

Explore les réseaux neuronaux artificiels, les informations sur les récompenses dans le cerveau, le conditionnement animal, l'apprentissage par renforcement profond et un quiz sur les récompenses.

Apprentissage par renforcement : algorithme SARSA

Explore l'algorithme SARSA pour l'apprentissage par renforcement, en mettant l'accent sur la mise à jour des valeurs Q et l'importance de l'exploration dans l'apprentissage par récompenses.

NLP moderne: de GPT à ChatGPT

Explore l'évolution des NLP modernes de GPT-2 à GPT-3, en mettant l'accent sur l'apprentissage en contexte et le développement de ChatGPT.

Renforcement de l'apprentissage : bases et applications

Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.

Soustraire la récompense moyenne via la fonction valeur

Couvre l'importance de la soustraction de la récompense moyenne dans les méthodes de gradient de politique pour l'apprentissage par renforcement profond, réduisant le bruit dans le gradient stochastique.

Apprentissage par renforcement: Exploration, Attribution de crédit, TRPO, PPO

Se penche sur les problèmes d'apprentissage par renforcement, TRPO, PPO et les limites de RL.

Méthodes de dégradé de politique: plusieurs étapes temporelles

Explore les méthodes de dégradé de politique sur plusieurs étapes temporelles, en mettant l'accent sur la mise à jour des paramètres de politique pour maximiser les récompenses.