关键词transformer-based agents
搜索结果 - 2
- LOViS: 为视觉语言导航学习方向和视觉信号
本文设计了一种具有显式方向和视觉模块的神经代理,通过特定的预训练任务,强化代理的空间推理和视觉感知,在 Room2room 和 Room4room 数据集上均取得了最先进的结果。
- ACL诊断视觉语言导航:真正重要的事情
本文研究了视觉与语言导航的多模态任务,通过一系列诊断实验揭示不同类型的导航智能体的注意力焦点和跨模态理解能力,发现 Transformer 模型相对其他模型更具有对物体的跨模态理解能力,同时对于模型声称的跨模态对齐方式存在质疑。