BriefGPT.xyz
Ask
alpha
关键词
layout knowledge
搜索结果 - 1
ICCV
从 YouTube 视频中学习视觉与语言导航
通过利用大规模的房屋导览视频数据集,本文提出了一种视觉语言导航方法,使用自动构建的路径指令对训练的代理进行预训练,并利用视频中的布局信息来提高导航的泛化性能。通过实验结果表明,该方法在两个流行的基准测试(R2R 和 REVERIE)上取得了
→
PDF
a year ago
Prev
Next