端到端、目标驱动的网络导航
该研究提出了一种将监督学习和强化学习技术相结合的新方法,通过在 MiniWoB 基准上利用两种方法的优势,解决了先前模型对 HTML 内容的理解上的关键限制,并展示了优于先前监督学习方法的实验结果,同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距,从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。
May, 2024
该研究提出了一项名为 WebVLN 的新任务,利用问答形式的指令训练代理程序,模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比,WebVLN 代理程序进一步考虑 HTML 等网页特定内容,通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法,在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集,并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。
Dec, 2023
本文提出了一种基于视觉 - 语言模型的指令驱动表征,通过离线培训方式对 WebGUM 模型进行了训练,使其在视觉感知、HTML 理解和多步推理能力上表现出色,相比现有最佳方法提高了 31.9%以上。
May, 2023
基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档,以 Python 程序的形式实现自然语言指令,实验结果显示成功率提升了 50% 以上,并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。
Jul, 2023
建立一个高度逼真和可重现的环境,专注于在网站上执行任务的智能代理,提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。
Jul, 2023
我们提出了会话式网络导航的问题,其中数字代理控制网络浏览器,并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题,我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式,并可用于在不同场景中训练和评估代理。由于存在大量信息,大型语言模型(LLM)无法实时处理整个网页。为了解决这个瓶颈,我们设计了一种受检索启发的模型,通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现,较小的微调解码器超过了最好的零 - shot LLMs(包括 GPT-4V),但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而,所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。
Feb, 2024
本文提出了一种基于可学习启发式搜索的视觉和语言导航任务的处理方法,通过两个模块 —— 后退决策和进度标记,取得较当前最优方法的 5%绝对改进和 8%路径长度的情况下成功率的提高。
Mar, 2019
提出了引导强化学习方法,将复杂指令分解成多个子指令并进行逐步学习。该方法配合 QWeb 神经网络训练 DQN 智能体,在 World of Bits 基准测试中实现了对高达 100 元素、支持 1400 万个可能指令的表格的 100% 成功率。
Dec, 2018