Aug, 2024

缩小导航中视觉与行动之间的差距

TL;DR本文针对现有的视觉和语言导航方法在连续环境下的不足,提出了一种通过低级动作解码器与高级动作预测联合训练的新方法。此方法弥补了视觉感知与实际动作之间的差距,并利用丰富的语义信息增强了路径预测器。实验证明,该方法在导航性能指标上显著优于现有基线。