Shaping Theorem - Exploration IA 2025

Source : [[The Alignment Problem]] MOC : [[Intelligence artificielle]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** Il faut distinguer l'objectif de la récompense. Récompenser un état de l'environnement souhaitable plutôt qu'une action de l'agent. Et bien sûr, que défaire l'état souhaitable fasse perdre la récompense rétrospectivement.