CVPRMar, 2021

远程视觉基础场景直观智能体

TL;DR本文提出了一个能够模拟人类行为的代理程序,旨在解决 REVERIE 任务,通过两个交叉模态对齐子任务的预训练阶段,即场景定位任务和对象定位任务,再结合记忆增强注意力动作解码器来生成行动序列,证明了本方法的有效性。