Bonjour à tous,
Quelqu'un connait-il la démarche à suivre pour prendre en compte la TD error en tant qu'input dans le bloc "acteur" de l'architecture acteur-critique ? D'une part, je dispose de la TD error calculée et d'autre part je dispose dans mon cas de 3 actions sur lesquelles il faut distribuer les probabilités. La TD error est censée modifier la politique de l'agent. La politique est définie comme étant la distribution de probabilité sur toutes les actions disponibles à un état donné. A chaque itération, la TD error est censé conforter ou non la politique de l'agent, en gros critiquer ses décisions. Par exemple, si celle-ci est négative, c'est que l'agent ne semble plus avoir la "bonne" politique au regard des données acquises depuis l'environnement ce qui devrait se traduire par une redistribution des probas en faveur d'une autre action disponible à cet état-là. Je ne vois pas bien quel pourrait être le modèle qui aurait en input la TD error et en output la nouvelle distribution de probabilité sur les actions... ? Merci beaucoup, j'espère avoir été suffisamment clair dans mon propos ps : désolé pour les connaisseurs, j'ai essayé d'écrire le message de façon à ce qu'un maximum de personnes puissent y répondre si toutefois ils voyaient une solution au problème que j'évoque sans être spécialiste de cette question. merci beaucoup