Feb, 2022

学习合成环境和奖励网络以进行强化学习

TL;DR这篇论文介绍了一种用于训练 Reinforcement Learning 代理的代理环境模型 ——Synthetic Environments 和 Reward Networks,可以通过双层优化演进 Synthetic Environments 和 Reward Networks。研究结果表明 Synthetic Environments 通过学习到偏向相关状态的信息来为代理提供有用的信息,从而降低了训练新代理所需要的真实环境的交互次数,并且可以抵御超参数变化,具有较强的泛化性。