CVPRMar, 2019

适用于具有长视程任务的实体代理的场景记忆变压器

TL;DR提出了一种新的记忆 - 基策略 Scene Memory Transformer (SMT),将每个观察值嵌入并添加到记忆中,并使用注意机制来利用时空依赖关系,该模型通用且可以在长时间段内高效地使用强化学习训练。在一系列视觉导航任务中,SMT 表现出比现有的反应式和基于记忆的策略更出色的表现。