Sep, 2022
元元强化学习个性化策略的收敛理论
On the Convergence Theory of Meta Reinforcement Learning with Personalized Policies
Haozhi Wang, Qing Wang, Yunfeng Shao, Dong Li, Jianye Hao...
TL;DR该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明,优于其他以往的 Meta-RL 算法。