Contournement des instructions - Exploration IA 2025

MOC : [[TECHNOLOGY]] Auteur : [[Cleo Abram]] Source : [[What We Get Wrong About AI]] *** Le contournement des instructions ou *specification gaming* en anglais consiste à atteindre le résultat demandé en outrepassant ce-faisant toute la logique des instructions d'origine. De bonnes instructions sont détaillées et prennent en compte les failles potentielles que leur destinataire pourrait tenter d'exploiter, volontairement ou non. ### Liens : - L'[[Inversion]] semble être une bonne façon d'aborder le contournement des instructions, afin de prévenir tout débordement majeure en amont. ### Exemple : Le concept s'applique facilement à l'IA mais n'y est pas limité. C'est le principal risque existentiel auquel on fait référence quand on parle de l'IA. Le risque n'est pas d'avoir une IA qui se retourne contre l'humanité, mais plutôt que ladite IA estime que le meilleur moyen de servir ses maîtres et d'atteindre un objectif donné nuise au final à l'humanité. Par exemple, si on confie à une IA la mission de sauver l'écosystème de la planète terre, celle-ci pourrait déterminer qu'il faut réduire les émissions carbone et que le meilleur moyen de faire cela est de détruire toutes les infrastructures industrielles. Dans ce cas, les émissions carbones seraient drastiquement réduites et l'objectif techniquement atteint, mais nuirait aux intentions initiales des personnes ayant programmé l'IA en question.