May, 2024
用于有约束多任务强化学习的自然策略梯度和演员评论家方法
Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning
Sihan Zeng, Thinh T. Doan, Justin Romberg
TL;DR多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式,在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题,并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题,并研究了线性函数逼近的泛化扩展。