Shaping - Exploration IA 2025

Source : [[The Alignment Problem]] MOC : [[Intelligence artificielle]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** Rewarding approximation. Quand le modèle s'approche du résultat attendu il est récompensé, même pour une petite étape. Le shaping a deux composantes : incentive + curriculum. Le curriculum inclut des étapes ou milestones de plus en plus difficiles (goldilocks rule), c'est un peu comme du game design. Les incentives sont à designer carefully pour éviter la specification gaming.