ACLApr, 2021

通过句法信息改善视觉语言导航中的跨模态对齐

TL;DR本文提出了一种新的导航代理程序,利用依赖树派生的句法信息增强指令和当前视觉场景之间的对齐,显著提高了在 Room-to-Room 数据集上的性能,同时在 Room-Across-Room 数据集上取得了新的最高性能水平。