Jul, 2024

视觉与语言导航的现状和未来:基于基础模型时代的调查

TL;DR通过采用一个原则性的框架对现有方法进行全面检讨,该综述着重于借助基础模型解决 Vision-and-Language Navigation(VLN)领域的挑战,以及探索未来机遇和潜在角色。我们希望通过深入讨论提供有价值的资源和见解,不仅能够记录进展并探索基础模型在该领域中的机遇,而且能够对 VLN 中的不同挑战和解决方案进行分类整理,为基础模型研究人员提供帮助。