Mar, 2023

MLANet:基于子指令的多级注意力网络,用于连续的视觉语言导航

TL;DR为了更好地在连续的虚拟现实环境中实现语音导航,本文提出了一个多层次的指令理解机制和一个名为 MLANet 的新模型,它包含子指令生成的快速算法 (FSA)、多层次关注模块 (MLA) 来调和指令和视觉信号,以及用于提高对当前子指令选择能力的峰值关注损失 (PAL),实验结果表明 MLANet 优于基线模型。