Source : [[The Alignment Problem]]
MOC : [[INTELLIGENCE ARTIFICIELLE]]
Auteur : [[Brian Christian]]
Date : 2025-01-28
***
(1% random, stumbling on success accidentally) Le modèle recherche l'action qui générera la plus grande récompense et l'exécute 99% du temps, avec une faible randomisation pour se donner une chance de trouver une meilleure heuristique par accident.