AAAIDec, 2023

WebVLN:基于视觉和语言的网站导航

TL;DR该研究提出了一项名为 WebVLN 的新任务,利用问答形式的指令训练代理程序,模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比,WebVLN 代理程序进一步考虑 HTML 等网页特定内容,通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法,在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集,并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。