Nov, 2023

右边” 在哪儿?:揭示视觉语言导航模型的限制

TL;DR通过一系列的简单遮盖实验,揭示了某些高性能模型仅依赖于指令的名词标记,并提出了两种训练方法来缓解这个问题。