端到端、目标驱动的网络导航

Feb, 2016

End-to-End Goal-Driven Web Navigation

Rodrigo Nogueira, Kyunghyun Cho

TL;DR该论文提出一种目标驱动的网络导航模型作为评估具有自然语言理解和部分观察环境下规划能力的智能体的基准任务，并且将其应用于包括维基百科和 Jeopardy! 的数据集上进行广泛评估，展示了该任务在衡量未来进展方面的潜力。

Abstract

We propose a goal-driven web navigation as a benchmark task for evaluating an agent with abilities to understand natural language and plan on partially observed environments. In this challenging task, an agent na

goal-driven web navigation natural language understanding sequential decision-making neural networks benchmark

发现论文，激发创造

WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

该研究提出了一种将监督学习和强化学习技术相结合的新方法，通过在 MiniWoB 基准上利用两种方法的优势，解决了先前模型对 HTML 内容的理解上的关键限制，并展示了优于先前监督学习方法的实验结果，同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距，从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。

May, 2024

WebVLN：基于视觉和语言的网站导航

该研究提出了一项名为 WebVLN 的新任务，利用问答形式的指令训练代理程序，模拟用户在网页上浏览的过程。与现有的 Vision-and-Language Navigation 任务相比，WebVLN 代理程序进一步考虑 HTML 等网页特定内容，通过构建在最先进的 VLN 技术基础之上的 WebVLN-Net 方法，在 VLN 和网页导航方法上取得了更好的表现。该研究的贡献在于创建了 WebVLN-v1 数据集，并为 VLN 领域与广泛的视觉与语言研究社区做出了新的探索。

Dec, 2023

基于指令微调基础模型的多模式网络导航

本文提出了一种基于视觉 - 语言模型的指令驱动表征，通过离线培训方式对 WebGUM 模型进行了训练，使其在视觉感知、HTML 理解和多步推理能力上表现出色，相比现有最佳方法提高了 31.9％以上。

May, 2023

一个具有规划、长期上下文理解和程序综合的现实世界 Web 代理

基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档，以 Python 程序的形式实现自然语言指令，实验结果显示成功率提升了 50% 以上，并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。

Jul, 2023

WebArena：一个构建自主代理的真实网络环境

建立一个高度逼真和可重现的环境，专注于在网站上执行任务的智能代理，提供一组多样化、长期规划、模拟人类在互联网上例行执行的任务的基准任务以评估任务完成的功能正确性。

Jul, 2023

学习在复杂环境中导航

利用增强学习问题和多模态感应输入的辅助深度预测和循环闭环分类任务，可以学习从复杂 3D 迷宫中进行导航并接近人类级别表现

Nov, 2016

WebLINX：具有多轮对话的实际网站导航

我们提出了会话式网络导航的问题，其中数字代理控制网络浏览器，并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题，我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式，并可用于在不同场景中训练和评估代理。由于存在大量信息，大型语言模型（LLM）无法实时处理整个网页。为了解决这个瓶颈，我们设计了一种受检索启发的模型，通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现，较小的微调解码器超过了最好的零 - shot LLMs（包括 GPT-4V），但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而，所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。

Feb, 2024

后悔的智能体：借助进展估计的启发式导航

本文提出了一种基于可学习启发式搜索的视觉和语言导航任务的处理方法，通过两个模块 —— 后退决策和进度标记，取得较当前最优方法的 5％绝对改进和 8％路径长度的情况下成功率的提高。

Mar, 2019

学习网页导航

提出了引导强化学习方法，将复杂指令分解成多个子指令并进行逐步学习。该方法配合 QWeb 神经网络训练 DQN 智能体，在 World of Bits 基准测试中实现了对高达 100 元素、支持 1400 万个可能指令的表格的 100% 成功率。

Dec, 2018

交互式视觉导航：推动它脱离路径

本文介绍了智能体互动导航的问题，并提出了用神经交互引擎（NIE）解决物理任务的方法，研究表明，应用 NIE 的智能体的导航能力显着提高。

Apr, 2021