基于指令微调基础模型的多模式网络导航

May, 2023

基于指令微调基础模型的多模式网络导航

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu...

TL;DR本文提出了一种基于视觉 - 语言模型的指令驱动表征，通过离线培训方式对 WebGUM 模型进行了训练，使其在视觉感知、HTML 理解和多步推理能力上表现出色，相比现有最佳方法提高了 31.9％以上。

Abstract

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we st

autonomous web navigation offline training vision-language foundation models webgum instruction-following multimodal agent

发现论文，激发创造

WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

该研究提出了一种将监督学习和强化学习技术相结合的新方法，通过在 MiniWoB 基准上利用两种方法的优势，解决了先前模型对 HTML 内容的理解上的关键限制，并展示了优于先前监督学习方法的实验结果，同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距，从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。

May, 2024

AutoWebGLM：基于大型语言模型的 Web 导航代理自动引导和强化

AutoWebGLM 是一个建立在 ChatGLM3-6B 基础上的自动化网页导航智能体，它通过采用 HTML 简化算法来表示网页并利用混合人工智能方法构建网页浏览数据，再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率，在真实环境中提出了改进的同时也面临挑战。

Apr, 2024

一个具有规划、长期上下文理解和程序综合的现实世界 Web 代理

基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档，以 Python 程序的形式实现自然语言指令，实验结果显示成功率提升了 50% 以上，并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。

Jul, 2023

WebLINX：具有多轮对话的实际网站导航

我们提出了会话式网络导航的问题，其中数字代理控制网络浏览器，并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题，我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式，并可用于在不同场景中训练和评估代理。由于存在大量信息，大型语言模型（LLM）无法实时处理整个网页。为了解决这个瓶颈，我们设计了一种受检索启发的模型，通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现，较小的微调解码器超过了最好的零 - shot LLMs（包括 GPT-4V），但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而，所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。

Feb, 2024

超越查询：通过强化学习训练更小的语言模型进行网络交互

针对传统搜索系统在产品搜索等场景中面临的挑战，本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架，名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构，结合语言建模和价值评估模块，实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果，发现在无人示范的情况下，无监督学习方法的效果优于行为克隆方法，同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。

Apr, 2024

端到端、目标驱动的网络导航

该论文提出一种目标驱动的网络导航模型作为评估具有自然语言理解和部分观察环境下规划能力的智能体的基准任务，并且将其应用于包括维基百科和 Jeopardy! 的数据集上进行广泛评估，展示了该任务在衡量未来进展方面的潜力。

Feb, 2016

WebVoyager: 使用大型多模态模型构建端到端网络代理

我们介绍了 WebVoyager，这是一种创新的大型多模态模型（LMM）驱动的网络代理，可以通过与真实网站的交互来完成用户指令的端到端。此外，我们提出了一种新的网络代理评估协议，以解决开放式网络代理任务的自动评估挑战，利用了 GPT-4V 的强大多模态理解能力。我们通过收集 15 个广泛使用的网站上的真实任务来评估我们的代理，并展示了 WebVoyager 获得了 55.7% 的任务成功率，大大超过了 GPT-4（所有工具）和 WebVoyager（仅文本）设置的表现，突显出 WebVoyager 在实际应用中的卓越能力。我们发现我们提出的自动评估与人类判断达到了 85.3% 的一致性，为在真实世界中进一步开发网络代理铺平了道路。

Jan, 2024

GPT-4V 是一种通用的互联网代理系统，具有视觉能力

本文研究了大型多模态模型 (LMMs)，特别是 GPT-4V (ision) 和 Gemini 的最新进展，扩展了多模态模型的能力边界，超出了传统任务如图像标题生成和视觉问答。我们提出了 SEEACT，一种利用 LMMs 的通用网络代理，可以根据自然语言指令在任何给定的网站上完成任务。通过在最新的 MIND2WEB 基准上进行评估，我们展示了 GPT-4V 在网络代理中的巨大潜力，如果我们将其文本计划手动转化为网站上的动作，它可以成功完成 50% 的任务，这大大优于仅针对网络代理进行优化的纯文本 LLMs，如 GPT-4 或更小的模型 (FLAN-T5 和 BLIP-2)。然而，转化仍然是一个主要的挑战，现有的 LMM 转化策略，如集合标记提示，并不适用于网络代理，而我们在本文中开发的最佳转化策略利用了 HTML 文本和视觉信息。然而，与理想转化仍然存在相当大的差距，这给进一步改进留下了充分的空间。

Jan, 2024

关于面向对话式网络代理的多轮指令遵循

本文介绍了一种名为 Conversational Web Navigation 的新任务，通过使用名为 Multi-Turn Mind2Web (MT-Mind2Web) 的特殊数据集，提出了一种名为 self-reflective memory-augmented planning (Self-MAP) 的新框架，通过利用记忆利用和自我反思技术，在现实世界的场景中有效地与连续的用户指令进行复杂的交互。

Feb, 2024

WebWISE：大型语言模型的 Web 界面控制和顺序探索

使用大型语言模型 (LLM) 自动执行 Web 软件任务，通过点击、滚动和文本输入操作，以 DOM 元素作为观测，逐步执行任务生成小程序，利用上下文学习从单一或自动生成的示例中受益，该方法在 MiniWob++ 基准测试中表现优于其他需要多个演示或试验的方法。

Oct, 2023