May, 2024

用于有约束多任务强化学习的自然策略梯度和演员评论家方法

TL;DR多任务强化学习研究了多个任务同时有效解决的单一策略的约束形式,在中心化和去中心化设置下分别考虑了服务器和代理之间的全局约束问题,并提出了基于原始 - 对偶算法和基于采样的演员 - 评论家算法来解决这一问题,并研究了线性函数逼近的泛化扩展。