Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours explore un cadre théorique pour l'apprentissage du renforcement avec la rétroaction humaine (RLHF) qui traite des données ordinales, en mettant l'accent sur la convergence des estimateurs sous différents modèles. Il examine les défis rencontrés lors de la formation d'une politique fondée sur des modèles de récompense appris et introduit une EMI pessimiste pour améliorer la performance. L'analyse valide le succès des algorithmes RLHF existants et fournit des informations pour la conception d'algorithmes, unifiant RLHF et max-entropie Inverse Renfortement Learning. La séance de cours couvre également la formulation de RLHF, le modèle Plackett-Luce, et la connexion avec Inverse RL, ainsi que des expériences comparant différents estimateurs et politiques.