Roberta Raileanu, Max Goldstein, Arthur Szlam, Rob Fergus
TL;DR介绍了一种新的Policy-Dynamics Value Functions方法用于快速适应不同于之前训练环境的动态环境,方法利用强化学习技术,通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练,能够在少量交互中,通过学习后的价值函数快速适应不同动态环境,实验表明本方法在MuJoCo环境下有较好的表现。
Abstract
Standard RL algorithms assume fixed environment dynamics and require a significant amount of interaction to adapt to new environments. We introduce policy-dynamics value functions (PD-VF), a novel approach for ra