Séance de cours

Renforcement des principes de l'apprentissage grâce à la rétroaction humaine

Description

Cette séance de cours explore un cadre théorique pour l'apprentissage du renforcement avec la rétroaction humaine (RLHF) qui traite des données ordinales, en mettant l'accent sur la convergence des estimateurs sous différents modèles. Il examine les défis rencontrés lors de la formation d'une politique fondée sur des modèles de récompense appris et introduit une EMI pessimiste pour améliorer la performance. L'analyse valide le succès des algorithmes RLHF existants et fournit des informations pour la conception d'algorithmes, unifiant RLHF et max-entropie Inverse Renfortement Learning. La séance de cours couvre également la formulation de RLHF, le modèle Plackett-Luce, et la connexion avec Inverse RL, ainsi que des expériences comparant différents estimateurs et politiques.

Connectez-vous pour regarder la vidéo

Source officielle

https://mediaspace.epfl.ch/media/0_jttwcsas

À propos de ce résultat

Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.

Proximité ontologique

Statistique

Inférence statistique: Statistique mathématique

Séances de cours associées (37)

Graph Chatbot

Chattez avec Graph Search

Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.

AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.

Connectez-vous pour utiliser Chat avec Graph Search