WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

May, 2024

WebAI 导航：使用大型语言模型和强化学习训练代理完成 Web 任务

Navigating WebAI: Training Agents to Complete Web Tasks with Large Language Models and Reinforcement Learning

Lucas-Andreï Thil, Mirela Popa, Gerasimos Spanakis

TL;DR该研究提出了一种将监督学习和强化学习技术相结合的新方法，通过在 MiniWoB 基准上利用两种方法的优势，解决了先前模型对 HTML 内容的理解上的关键限制，并展示了优于先前监督学习方法的实验结果，同时在与多模式强化学习方法相结合时缩小了与强化学习模型之间的性能差距，从而为未来的网络导航提供了新的方向和对语言建模在计算机任务中的潜力的洞察。

Abstract

Recent advancements in language models have demonstrated remarkable improvements in various natural language processing (NLP) tasks such as web navigation. supervised learning (SL) approaches have achieved impres

language models supervised learning reinforcement learning miniwob benchmark web navigation

发现论文，激发创造

学习网页导航

提出了引导强化学习方法，将复杂指令分解成多个子指令并进行逐步学习。该方法配合 QWeb 神经网络训练 DQN 智能体，在 World of Bits 基准测试中实现了对高达 100 元素、支持 1400 万个可能指令的表格的 100% 成功率。

Dec, 2018

大型语言模型能够在网络代理任务上进行自我改进

通过在复杂环境中使用 WebArena 基准测试，我们探索了大语言模型在长期任务中作为代理人自我提升性能的程度，通过自我改进的方式，在三种不同的合成训练数据混合情况下，我们实现了在 WebArena 基准测试中任务完成率的 31％提高，并额外提供了用于评估我们精调代理模型的性能、鲁棒性、功能和轨迹质量的新型评价指标。

May, 2024

WebWISE：大型语言模型的 Web 界面控制和顺序探索

使用大型语言模型 (LLM) 自动执行 Web 软件任务，通过点击、滚动和文本输入操作，以 DOM 元素作为观测，逐步执行任务生成小程序，利用上下文学习从单一或自动生成的示例中受益，该方法在 MiniWob++ 基准测试中表现优于其他需要多个演示或试验的方法。

Oct, 2023

超越查询：通过强化学习训练更小的语言模型进行网络交互

针对传统搜索系统在产品搜索等场景中面临的挑战，本研究介绍了一种用于智能网页交互的基于语言模型和强化学习的框架，名为 GLAINTEL。GLAINTEL 通过引入基于 transformer 模型的 Flan-T5 架构，结合语言建模和价值评估模块，实现了对网页环境中搜索能力的增强。通过系统评估不同场景下的训练效果，发现在无人示范的情况下，无监督学习方法的效果优于行为克隆方法，同时将人类示范与强化学习相结合的模型效果与使用 GPT-4 模型的结果相当。

Apr, 2024

一个具有规划、长期上下文理解和程序综合的现实世界 Web 代理

基于大规模语言模型的 WebAgent 在网页导航任务中通过规划和总结 HTML 文档，以 Python 程序的形式实现自然语言指令，实验结果显示成功率提升了 50% 以上，并且 HTML-T5 模型在解决基于 HTML 的任务上表现最好。

Jul, 2023

AutoWebGLM：基于大型语言模型的 Web 导航代理自动引导和强化

AutoWebGLM 是一个建立在 ChatGLM3-6B 基础上的自动化网页导航智能体，它通过采用 HTML 简化算法来表示网页并利用混合人工智能方法构建网页浏览数据，再结合强化学习和拒绝抽样来提高网页理解、浏览器操作和任务分解的效率，在真实环境中提出了改进的同时也面临挑战。

Apr, 2024

基于指令微调基础模型的多模式网络导航

本文提出了一种基于视觉 - 语言模型的指令驱动表征，通过离线培训方式对 WebGUM 模型进行了训练，使其在视觉感知、HTML 理解和多步推理能力上表现出色，相比现有最佳方法提高了 31.9％以上。

May, 2023

语言模型能解决计算机任务

本研究展示了一种使用 RCI 方法来自然语言执行计算机任务的代理方法，此方法能够显著提高计算机任务的自动化表现，优于现有的自然语言处理方法，并在自然语言推理任务中表现出较好的推理能力。

Mar, 2023

基于自然语言启发的强化学习综述

提出了将自然语言理解与强化学习紧密结合的想法，并对现有技术及未来研究方向进行了调研。

Jun, 2019

端到端、目标驱动的网络导航

该论文提出一种目标驱动的网络导航模型作为评估具有自然语言理解和部分观察环境下规划能力的智能体的基准任务，并且将其应用于包括维基百科和 Jeopardy! 的数据集上进行广泛评估，展示了该任务在衡量未来进展方面的潜力。

Feb, 2016