Epsilon-greedy - Exploration IA 2025

Source : [[The Alignment Problem]] MOC : [[INTELLIGENCE ARTIFICIELLE]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** (1% random, stumbling on success accidentally) Le modèle recherche l'action qui générera la plus grande récompense et l'exécute 99% du temps, avec une faible randomisation pour se donner une chance de trouver une meilleure heuristique par accident.