On-policy vs Off-policy - Exploration IA 2025

Source : [[The Alignment Problem]] MOC : [[Intelligence artificielle]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** En RL on se basse souvent sur la Q-Value (Quality Value) d'une action. Il y a deux façons de la calculer, qui se basent sur deux paradigmes : le possibilisme et l'actualisme. Le possibilisme envisage l'ensemble des solutions disponibles et recherche la meilleure, sans tenir compte du contexte. L'actualisme recherche la solution la plus probable, en fonctionu du contexte. Un calcul de Q-value possibiliste recherche donc la meilleure solution au demeurant. Tandis qu'un calcul actualiste examine les conséquences probables de chaque action.