Apprentissage par renforcement/acteur-critique/TD error

Réponses à toutes vos questions après le Bac (Fac, Prépa, etc.)
bijodule
Messages: 1
Enregistré le: 28 Aoû 2017, 22:32

Apprentissage par renforcement/acteur-critique/TD error

par bijodule » 28 Aoû 2017, 23:10

Bonjour à tous,

Quelqu'un connait-il la démarche à suivre pour prendre en compte la TD error en tant qu'input dans le bloc "acteur" de l'architecture acteur-critique ? D'une part, je dispose de la TD error calculée et d'autre part je dispose dans mon cas de 3 actions sur lesquelles il faut distribuer les probabilités. La TD error est censée modifier la politique de l'agent. La politique est définie comme étant la distribution de probabilité sur toutes les actions disponibles à un état donné. A chaque itération, la TD error est censé conforter ou non la politique de l'agent, en gros critiquer ses décisions. Par exemple, si celle-ci est négative, c'est que l'agent ne semble plus avoir la "bonne" politique au regard des données acquises depuis l'environnement ce qui devrait se traduire par une redistribution des probas en faveur d'une autre action disponible à cet état-là. Je ne vois pas bien quel pourrait être le modèle qui aurait en input la TD error et en output la nouvelle distribution de probabilité sur les actions... ? Merci beaucoup, j'espère avoir été suffisamment clair dans mon propos :) ps : désolé pour les connaisseurs, j'ai essayé d'écrire le message de façon à ce qu'un maximum de personnes puissent y répondre si toutefois ils voyaient une solution au problème que j'évoque sans être spécialiste de cette question. merci beaucoup



 

Retourner vers ✯✎ Supérieur

Qui est en ligne

Utilisateurs parcourant ce forum : Aucun utilisateur enregistré et 36 invités

Tu pars déja ?



Fais toi aider gratuitement sur Maths-forum !

Créé un compte en 1 minute et pose ta question dans le forum ;-)
Inscription gratuite

Identification

Pas encore inscrit ?

Ou identifiez-vous :

Inscription gratuite