将自然语言命令映射到 Web 元素

EMNLPAug, 2018

Mapping Natural Language Commands to Web Elements

Panupong Pasupat, Tian-Shun Jiang, Evan Zheran Liu, Kelvin Guu, Percy Liang

TL;DR该研究提出了一项新任务，即在 Web 环境中将语言与正确的网页元素匹配，并收集了超过 50,000 个命令的数据集，包括功能引用、关系推理和视觉推理，并实施和分析了三个基准模型。

Abstract

The web provides a rich, open-domain environment with textual, structural, and spatial properties. We propose a new task for grounding language in this environment: given a natural language command (e.g., "click on the second article"), choose the correct element on the web page (e.g.,

grounding language web environment dataset relational reasoning baseline models

发现论文，激发创造

将开放域的指令应用于自动化 Web 支持任务

介绍了一个训练 AI 智能体对象执行开放域、逐步指导的任务的数据集，该数据集包含 741 个逐步指令。此外，构建了一个名为 RUSS 的模型来处理此问题，并且它优于不使用 ThingTalk 直接映射指令的最新模型。

Mar, 2021

将自然语言指令映射到移动 UI 操作序列

本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射，并结合数据标注与合成技术，对其进行了完整的任务评估，并在 PIXELHELP 数据集上达到了 70.59% 的准确率。

May, 2020

一个（搜索）框内的语言：以真实世界的人机交互为基础的语言学习

研究通过现实世界数据进行基于场景语言学习，探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性，学习场景、表示和组合的功能，并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。

Apr, 2021

从自然语言指令和 GUI 演示中进行交互式任务与概念学习

本篇论文介绍了一种新的多模态、领域无关的方法，结合自然语言编程和演示编程，允许用户在高层次上自然描述任务和相关条件，并通过对话和演示递归地解决任何模糊不清的问题。PUMICE 是一个可供最终用户编程的代理系统，实现了这种方法。10 位用户的实验显示出系统的可用性。

Aug, 2019

双视图视觉情境化网络导航

通过在网页截图中使用 HTML 元素的双重视图，利用其邻近元素的文本和视觉特征，从而更好地将 HTML 元素的上下文化，实现 Web 上自动导航代理的高效执行。

Feb, 2024

通过人机对话改善基于场景的自然语言理解

该论文介绍了一种将自然语言命令翻译成离散机器人动作的方法，并使用澄清对话共同改进语言解析和概念基础。将这个代理程序训练和评估在亚马逊的 Mechanical Turk 平台上的虚拟环境，并在真实环境中将学习到的代理迁移到物理机器人平台进行演示。

Mar, 2019

WebWISE：大型语言模型的 Web 界面控制和顺序探索

使用大型语言模型 (LLM) 自动执行 Web 软件任务，通过点击、滚动和文本输入操作，以 DOM 元素作为观测，逐步执行任务生成小程序，利用上下文学习从单一或自动生成的示例中受益，该方法在 MiniWob++ 基准测试中表现优于其他需要多个演示或试验的方法。

Oct, 2023

WebLINX：具有多轮对话的实际网站导航

我们提出了会话式网络导航的问题，其中数字代理控制网络浏览器，并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题，我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式，并可用于在不同场景中训练和评估代理。由于存在大量信息，大型语言模型（LLM）无法实时处理整个网页。为了解决这个瓶颈，我们设计了一种受检索启发的模型，通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现，较小的微调解码器超过了最好的零 - shot LLMs（包括 GPT-4V），但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而，所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。

Feb, 2024

WebShop: 面向可扩展的真实世界网络交互的基于场景语言智能体

通过开发一个模拟的电子商务网站环境，使用强化学习、模仿学习和预训练图像和语言模型训练和评估多种代理人，以便理解指令、购买商品并在嘈杂的网页中执行动作，并分析代理人和人类的轨迹以提供以后的思路。

Jul, 2022

通过生成和遵循自然语言指令进行分层决策

使用自然语言隐式指令作为复杂动作的表达和组合，而不是直接选择微操作，本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型，结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型，并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。

Jun, 2019