Sep, 2022

元元强化学习个性化策略的收敛理论

TL;DR该论文提出了一种个性化元强化学习算法 (pMeta-RL),旨在解决元强化学习中的梯度冲突问题,该算法将任务特定的个性化策略汇总以更新用于所有任务的元策略,同时保持个性化策略以最大化每个任务的平均回报。该算法在离散和连续控制任务中的实验表明,优于其他以往的 Meta-RL 算法。