Séance de cours

Bandits à bras multiples : regrets et exploration

Description

Cette séance de cours se penche sur le concept de regret dans les problèmes de bandit multi-bras, explorant le compromis entre l'exploration et l'exploitation. L'instructeur explique comment calculer le regret attendu au fil du temps, en soulignant l'importance de l'écart entre les choix optimaux. La séance de cours couvre l'impact de l'horizon temporel sur la prise de décision et introduit des limites de concentration pour les probabilités de queue. La discussion s'étend aux variables aléatoires gaussiennes, aux fonctions génératrices de moment et à la limite de désactivation. L'instructeur met en évidence les défis de l'exploration et de l'exploitation, en mettant en évidence les implications pour les applications du monde réel comme la publicité sur Internet. La séance de cours se termine par des allusions à des sujets futurs, y compris les concepts théoriques de l'information et les extensions pratiques des algorithmes de bandits.

À propos de ce résultat
Cette page est générée automatiquement et peut contenir des informations qui ne sont pas correctes, complètes, à jour ou pertinentes par rapport à votre recherche. Il en va de même pour toutes les autres pages de ce site. Veillez à vérifier les informations auprès des sources officielles de l'EPFL.