将自然语言命令映射到 Web 元素
介绍了一个训练 AI 智能体对象执行开放域、逐步指导的任务的数据集,该数据集包含 741 个逐步指令。此外,构建了一个名为 RUSS 的模型来处理此问题,并且它优于不使用 ThingTalk 直接映射指令的最新模型。
Mar, 2021
本研究使用 Transformer 实现自然语言指令到移动用户界面动作的语义映射,并结合数据标注与合成技术,对其进行了完整的任务评估,并在 PIXELHELP 数据集上达到了 70.59% 的准确率。
May, 2020
研究通过现实世界数据进行基于场景语言学习,探索在用户与搜索引擎之间自然互动中建模教师 - 学生动态学习的出现、语义的普遍性,学习场景、表示和组合的功能,并表明该方法在组合性和零 - shot 推理任务方面提供了比 SOTA 的非基于场景的模型更好的结果和泛化能力。
Apr, 2021
本篇论文介绍了一种新的多模态、领域无关的方法,结合自然语言编程和演示编程,允许用户在高层次上自然描述任务和相关条件,并通过对话和演示递归地解决任何模糊不清的问题。PUMICE 是一个可供最终用户编程的代理系统,实现了这种方法。10 位用户的实验显示出系统的可用性。
Aug, 2019
通过在网页截图中使用 HTML 元素的双重视图,利用其邻近元素的文本和视觉特征,从而更好地将 HTML 元素的上下文化,实现 Web 上自动导航代理的高效执行。
Feb, 2024
该论文介绍了一种将自然语言命令翻译成离散机器人动作的方法,并使用澄清对话共同改进语言解析和概念基础。将这个代理程序训练和评估在亚马逊的 Mechanical Turk 平台上的虚拟环境,并在真实环境中将学习到的代理迁移到物理机器人平台进行演示。
Mar, 2019
使用大型语言模型 (LLM) 自动执行 Web 软件任务,通过点击、滚动和文本输入操作,以 DOM 元素作为观测,逐步执行任务生成小程序,利用上下文学习从单一或自动生成的示例中受益,该方法在 MiniWob++ 基准测试中表现优于其他需要多个演示或试验的方法。
Oct, 2023
我们提出了会话式网络导航的问题,其中数字代理控制网络浏览器,并遵循用户的指令以多轮对话的方式解决现实任务。为了支持这个问题,我们介绍了 WEBLINX - 一个包括多个领域的 100K 个交互和 2300 个专家演示的大规模基准。我们的基准涵盖了 150 多个真实网站上的各种模式,并可用于在不同场景中训练和评估代理。由于存在大量信息,大型语言模型(LLM)无法实时处理整个网页。为了解决这个瓶颈,我们设计了一种受检索启发的模型,通过对相关元素进行排序来高效修剪 HTML 页面。我们使用所选元素、屏幕截图和操作历史来评估各种模型在导航网页时模拟人类行为的能力。我们的实验从纯文本到专有的多模式 LLM 都有涉及。我们发现,较小的微调解码器超过了最好的零 - shot LLMs(包括 GPT-4V),但也超过了明确在屏幕截图上进行预训练的较大微调多模式模型。然而,所有微调模型都难以泛化到未见过的网站。我们的发现强调了需要能够泛化到新颖设置的大型多模式模型。
Feb, 2024
通过开发一个模拟的电子商务网站环境,使用强化学习、模仿学习和预训练图像和语言模型训练和评估多种代理人,以便理解指令、购买商品并在嘈杂的网页中执行动作,并分析代理人和人类的轨迹以提供以后的思路。
Jul, 2022
使用自然语言隐式指令作为复杂动作的表达和组合,而不是直接选择微操作,本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型,结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型,并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。
Jun, 2019