Jul, 2020

基于策略动态价值函数的快速适应

TL;DR介绍了一种新的Policy-Dynamics Value Functions方法用于快速适应不同于之前训练环境的动态环境,方法利用强化学习技术,通过学习环境和策略在嵌入空间中的表示并进行价值函数的训练,能够在少量交互中,通过学习后的价值函数快速适应不同动态环境,实验表明本方法在MuJoCo环境下有较好的表现。