Mar, 2024

注意错误!视觉与语言导航中的指示错误检测和定位

TL;DR在连续环境中的视觉与语言导航 (VLN-CE) 是一项直观但具有挑战性的 AI 任务,我们提出了一个新颖的基准数据集,引入了各种类型的指令错误并考虑了潜在的人为原因,从而为连续环境中的 VLN 系统的鲁棒性提供了宝贵的见解。我们还正式定义了指令错误检测和定位的任务,并在我们的基准数据集上建立了一个评估协议,我们提出的基于跨模态变换器架构的有效方法在错误检测和定位方面表现最好。