BriefGPT.xyz
Ask
alpha
关键词
navigation action prediction
搜索结果 - 1
邻居视图增强的视觉语言导航模型
本文提出了一种新的多模块的 Neighbor-View Enhanced Model (NvEM) 方法,通过利用相邻视图的视觉上下文信息和注意机制应对视觉和文本匹配不足的问题,并采用动作模块进行操纵指导,通过实验在 R2R 和 R4R 基
→
PDF
3 years ago
Prev
Next