Êtes-vous un étudiant de l'EPFL à la recherche d'un projet de semestre?
Travaillez avec nous sur des projets en science des données et en visualisation, et déployez votre projet sous forme d'application sur Graph Search.
Cette séance de cours se penche sur le concept de regret dans les problèmes de bandit multi-bras, explorant le compromis entre l'exploration et l'exploitation. L'instructeur explique comment calculer le regret attendu au fil du temps, en soulignant l'importance de l'écart entre les choix optimaux. La séance de cours couvre l'impact de l'horizon temporel sur la prise de décision et introduit des limites de concentration pour les probabilités de queue. La discussion s'étend aux variables aléatoires gaussiennes, aux fonctions génératrices de moment et à la limite de désactivation. L'instructeur met en évidence les défis de l'exploration et de l'exploitation, en mettant en évidence les implications pour les applications du monde réel comme la publicité sur Internet. La séance de cours se termine par des allusions à des sujets futurs, y compris les concepts théoriques de l'information et les extensions pratiques des algorithmes de bandits.