Source : [[The Alignment Problem]]
MOC : [[Intelligence artificielle]]
Auteur : [[Brian Christian]]
Date : 2025-01-28
***
Il faut distinguer l'objectif de la récompense. Récompenser un état de l'environnement souhaitable plutôt qu'une action de l'agent. Et bien sûr, que défaire l'état souhaitable fasse perdre la récompense rétrospectivement.