Source : [[The Alignment Problem]]
MOC : [[INTELLIGENCE ARTIFICIELLE]]
Auteur : [[Brian Christian]]
Date : 2025-01-28
***
Les vecteurs (vus précédemment) sont de l'unsupervised learning.
Les entraînement de reconnaissance d'image avec dataset labellisé du supervised learning.
Le RL, c'est la reproduction d'un système de dopamine / neuronal humain et de l'hétérostasis neuronale (les neurones individuellement veulent maximiser le plaisir et l'efficience) (Cf. Law of effect). Mais tout est connecté, car différentes actions peuvent impacter l'end-goal du système, qui est de maximiser ses "points". On a donc un système de Policy + Value Function. Policy c'est quoi faire et quand, donc choisir la bonne action dans le flow. Value function, c'est la reward & punishment, une sorte d'intuition de si l'action est bonne sur le long terme ou pas. Le modèle doit donc prendre les bonnes actions, mais prédire les futures récompenses.
Source : [[State of AI]]
MOC : [[INTELLIGENCE ARTIFICIELLE]]
Auteur : [[Nathan Benaich]] - [[Alex Chalmers]]
Date : 2025-01-28
***
Domaine du ML. Des agents IA ont un objectif et reçoivent des récompenses ou pénalités en fonction de leur résultat. Ils apprenent donc avec du trial & error et ladite policy.
Source : [[Hands-On Machine Learning]]
MOC : [[INTELLIGENCE ARTIFICIELLE]]
Auteur : [[Aurélien Géron]]
Date : 2025-02-03
***
L'apprentissage par renforcement est une catégorie du [[Machine Learing]]. Ici, on a un système de récompenses et pénalités qui encourage l'agent à trouver par lui même la meilleure politique ou stratégie pour maximiser la récompense sur la durée.