ICLRMar, 2020

深度集合用于 RL 中的泛化

TL;DR本文研究了在自然语言引导下的强化学习中,将以对象为中心的表现编码到奖励函数和策略架构中的想法。通过使用受深度集合启发的对象排列不变网络和门控注意机制的组合,我们在二维过程生成的世界中显示出这些结构对于分布外的目标具有强大的泛化能力,同时我们研究了在测试时对象数量的泛化和将以对象为中心的架构扩展到涉及关系推理的目标。