WebWISE：大型语言模型的 Web 界面控制和顺序探索

Oct, 2023

WebWISE：大型语言模型的 Web 界面控制和顺序探索

WebWISE: Web Interface Control and Sequential Exploration with Large Language Models

Heyi Tao, Sethuraman T V, Michal Shlapentokh-Rothman, Derek Hoiem, Heng Ji

TL;DR使用大型语言模型 (LLM) 自动执行 Web 软件任务，通过点击、滚动和文本输入操作，以 DOM 元素作为观测，逐步执行任务生成小程序，利用上下文学习从单一或自动生成的示例中受益，该方法在 MiniWob++ 基准测试中表现优于其他需要多个演示或试验的方法。

Abstract

The paper investigates using a large language model (LLM) to automatically perform web software tasks using click, scroll, and text input operations. Previous approaches, such as →

large language model web software tasks reinforcement learning document object model elements in-context learning

发现论文，激发创造

WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

该研究提出了一种将监督学习和强化学习技术相结合的新方法，通过在 MiniWoB 基准上利用两种方法的优势，解决了先前模型对 HTML 内容的理解上的关键限制，并展示了优于先前监督学习方法的实验结果，同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距，从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。

May, 2024

利用互联网优化大型语言模型

本文提出一种利用搜索引擎对大型语言模型进行网络增强的方法，通过自适应搜索引擎辅助学习和基于重要区间预测的连续知识学习任务，使模型在各种知识密集型任务中的性能表现显著优于基于检索的增强方法。

May, 2023

WebLINX：具有多轮对话的实际网站导航

我们提出了会话式网络导航的问题，其中数字代理控制网络浏览器，并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题，我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式，并可用于在不同场景中训练和评估代理。由于存在大量信息，大型语言模型（LLM）无法实时处理整个网页。为了解决这个瓶颈，我们设计了一种受检索启发的模型，通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现，较小的微调解码器超过了最好的零 - shot LLMs（包括 GPT-4V），但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而，所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。

Feb, 2024

大型语言模型能够在网络代理任务上进行自我改进

通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的 31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

May, 2024

基于指令微调基础模型的多模式网络导航

本文提出了一种基于视觉 - 语言模型的指令驱动表征，通过离线培训方式对 WebGUM 模型进行了训练，使其在视觉感知、HTML 理解和多步推理能力上表现出色，相比现有最佳方法提高了 31.9％以上。

May, 2023

AutoWebGLM：基于大型语言模型的 Web 导航代理自动引导和强化

AutoWebGLM 是一个建立在 ChatGLM3-6B 基础上的自动化网页导航智能体，它通过采用 HTML 简化算法来表示网页并利用混合人工智能方法构建网页浏览数据，再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率，在真实环境中提出了改进的同时也面临挑战。

Apr, 2024

学习网页导航

提出了引导强化学习方法，将复杂指令分解成多个子指令并进行逐步学习。该方法配合 QWeb 神经网络训练 DQN 智能体，在 World of Bits 基准测试中实现了对高达 100 元素、支持 1400 万个可能指令的表格的 100% 成功率。

Dec, 2018

DOM-Q-NET: 基于结构化语言的基础强化学习

本文介绍 DOM-Q-NET，一种基于深度强化学习和图神经网络的网页导航新架构。该架构通过将 Q 函数参数化为不同行动类别的网络，解决了当前深度强化学习模型在网页导航任务中因动作空间巨大和状态之间变化的不确定性等问题的难点。结果表明，该模型在 MiniWoB 环境中可以达到或者超过现有工作，同时在多任务设置中可以提高 2 倍的样本效率。

Feb, 2019

Mind2Web: 通往 Web 的通才智能代理

使用 Mind2Web 数据集，作者构建了能够利用大型语言模型（LLMs）构建通用 Web 代理的解决方案，该方案使用实际网站而非模拟网站，并提供广泛的用户交互图案。

Jun, 2023

一个具有规划、长期上下文理解和程序综合的现实世界 Web 代理

基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档，以 Python 程序的形式实现自然语言指令，实验结果显示成功率提升了 50% 以上，并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。

Jul, 2023