TD Learning - Exploration IA 2025

Source : [[The Alignment Problem]] MOC : [[INTELLIGENCE ARTIFICIELLE]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** Temporal differences, ce sont les attentes qui évoluent en temps réelles dans un RL. En fait c'est assez similaire au fonctionnement du bonheur court terme (rush de dopamine, mais on retourne à la baseline émotionnelle rapidement, c'est l'hedonic treadmill). Donc le modèle doit faire évoluer ses attentes et prédictions en fonction des changements permanents de l'environnement.