Source : [[The Alignment Problem]]
MOC : [[Intelligence artificielle]]
Auteur : [[Brian Christian]]
Date : 2025-01-28
***
Un gros challenge en RL est d'éviter la specification gaming (le modèle maximise la récompense en adoptant un comportement qui n'amène pas vers le but désiré). Une stratégie intéressante consiste à émuler le drive intrinsèque que l'on retrouve chez l'humain : la recherche de nouveauté, de surprise et de maîtrise (compétence). En plus des récompenses habituelles, on incite le modèle à aller rechercher ces trois éléments. Ainsi, le modèle essaye sans cesse de nouvelles choses, et ce de manière cohérente (pas d'epsilon-greedy donc). Pour l'analogie j'ajouterai que finalement, la récompense simple c'est un Finite Game, tandis que la reward intrinsèque est un Infinite Game (cf. l'excellent livre de James Carse Finite Game)