Cette séance de cours couvre le concept d'optimisation de la récompense totale attendue en associant directement les stimuli aux actions et en adaptant la politique à l'aide de méthodes de gradient. Il explique comment modifier la politique afin de maximiser la récompense totale en fonction des réponses et des exemples neuraux.