Introduit le filtre Kalman pour estimer l'état d'un système dynamique à partir de mesures bruyantes, couvrant la prédiction, la mise à jour et les étapes de filtrage.
Introduit Q-Learning, Deep Q-Learning, l'algorithme REINFORCE et Monte-Carlo Tree Search dans l'apprentissage par renforcement, aboutissant à AlphaGo Zero.