Source : [[The Alignment Problem]] MOC : [[INTELLIGENCE ARTIFICIELLE]] Auteur : [[Brian Christian]] Date : 2025-01-28 *** Les vecteurs (vus précédemment) sont de l'unsupervised learning. Les entraînement de reconnaissance d'image avec dataset labellisé du supervised learning. Le RL, c'est la reproduction d'un système de dopamine / neuronal humain et de l'hétérostasis neuronale (les neurones individuellement veulent maximiser le plaisir et l'efficience) (Cf. Law of effect). Mais tout est connecté, car différentes actions peuvent impacter l'end-goal du système, qui est de maximiser ses "points". On a donc un système de Policy + Value Function. Policy c'est quoi faire et quand, donc choisir la bonne action dans le flow. Value function, c'est la reward & punishment, une sorte d'intuition de si l'action est bonne sur le long terme ou pas. Le modèle doit donc prendre les bonnes actions, mais prédire les futures récompenses. Source : [[State of AI]] MOC : [[INTELLIGENCE ARTIFICIELLE]] Auteur : [[Nathan Benaich]] - [[Alex Chalmers]] Date : 2025-01-28 *** Domaine du ML. Des agents IA ont un objectif et reçoivent des récompenses ou pénalités en fonction de leur résultat. Ils apprenent donc avec du trial & error et ladite policy. Source : [[Hands-On Machine Learning]] MOC : [[INTELLIGENCE ARTIFICIELLE]] Auteur : [[Aurélien Géron]] Date : 2025-02-03 *** L'apprentissage par renforcement est une catégorie du [[Machine Learing]]. Ici, on a un système de récompenses et pénalités qui encourage l'agent à trouver par lui même la meilleure politique ou stratégie pour maximiser la récompense sur la durée.