ACLApr, 2021
通过句法信息改善视觉语言导航中的跨模态对齐
Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information
Jialu Li, Hao Tan, Mohit Bansal
TL;DR本文提出了一种新的导航代理程序,利用依赖树派生的句法信息增强指令和当前视觉场景之间的对齐,显著提高了在 Room-to-Room 数据集上的性能,同时在 Room-Across-Room 数据集上取得了新的最高性能水平。