Méthodes de dégradé de politique: exemple dacteur binaire
Séances de cours associées (33)
Graph Chatbot
Chattez avec Graph Search
Posez n’importe quelle question sur les cours, conférences, exercices, recherches, actualités, etc. de l’EPFL ou essayez les exemples de questions ci-dessous.
AVERTISSEMENT : Le chatbot Graph n'est pas programmé pour fournir des réponses explicites ou catégoriques à vos questions. Il transforme plutôt vos questions en demandes API qui sont distribuées aux différents services informatiques officiellement administrés par l'EPFL. Son but est uniquement de collecter et de recommander des références pertinentes à des contenus que vous pouvez explorer pour vous aider à répondre à vos questions.
Introduit des réseaux neuronaux convolutionnels (RCN) pour les véhicules autonomes, couvrant l'architecture, les applications et les techniques de régularisation.
Couvre les bases de l'apprentissage du renforcement, y compris les processus décisionnels de Markov et les méthodes de gradient des politiques, et explore les applications du monde réel et les avancées récentes.
Explore la caractéristique universelle de la formation de prix intrajournalière en utilisant des techniques d'apprentissage en profondeur pour prévoir les changements de prix en fonction de l'historique des flux d'ordres.
Explore l'ensachage en tant que méthode de régularisation dans l'apprentissage en profondeur, en formant plusieurs variantes de modèles sur différents sous-ensembles de données pour améliorer la généralisation.
Couvre les bases de l'apprentissage de renforcement, y compris l'apprentissage d'essai et d'erreur, l'apprentissage Q, le RL profond, et les applications dans le jeu et la planification.