你只看屏幕：多模态行动训练智能体

Sep, 2023

你只看屏幕：多模态行动训练智能体

You Only Look at Screens: Multimodal Chain-of-Action Agents

Zhuosheng Zhan, Aston Zhang

TL;DR自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求，现有方法在沙盒环境下开发，依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战，我们引入了 Auto-UI，这是一个多模态的解决方案，直接与界面交互，无需环境解析或依赖应用程序相关的 API。此外，我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法，该基准包含 30K 个独特的指令，涵盖应用操作、网络搜索和网购等多步任务。实验结果显示，Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。

Abstract

Autonomous user interface (UI) agents aim to facilitate task automation by interacting with the user interface without manual intervention. Recent studies have investigated eliciting the capabilities of large language models (LLMs) for effective engagement in diverse environments. To a

autonomous user interface agents large language models sandbox setting auto-ui chain-of-action technique

发现论文，激发创造

增强型用户界面指令基础：走向通用的用户界面任务自动化 API

建立了一个多模态模型用于将自然语言指令与给定的 UI 屏幕截图联系起来，作为通用的 UI 任务自动执行器，并通过强化学习算法对其进行加强，实验结果表明，该模型在 UI 任务自动化方面表现优异，显示出作为通用 UI 任务自动化 API 的潜力。

Oct, 2023

UINav：UI 自动化代理的制造者

提出了一种名为 UINav 的演示式代理系统，能够以简单手势为主的任务演示实现高成功率，并在保持较轻量级的同时可在移动设备上运行，通过采用裁判模型、宏操作和增加训练数据的方式，最小化任务演示次数，对于每个任务平均 10 次演示，UINav 能够达到 70% 以上的准确率，并在足够多演示的情况下实现 40 个以上不同任务的几乎完美成功率。

Dec, 2023

ActionBert：利用用户操作实现用户界面的语义理解

该研究介绍了一种基于用户交互轨迹的 UI 理解预训练模型 ActionBert，利用视觉、语言和领域专业特征来预训练 UI 元素的泛化特征表示，以解决 UI 的理解和功能识别的问题，并在图标分类和 UI 组件检索等任务上测试模型的效果。

Dec, 2020

UICoder: 通过自动反馈对大型语言模型进行微调以生成用户界面代码

通过使用自动生成的合成数据集和自动化工具，我们改进了现有的大型语言模型（LLMs），使其能够生成高质量的用户界面（UI）代码，并通过与其他基准模型的比较证明了我们的方法的有效性。

Jun, 2024

以人为本的 LLM-Agent 用户界面：立场论文

使用大规模语言模型（LLM）代理人用户界面（LAUI）能够主动学习用户需求，提出新的交互方案，帮助用户发现新的工作流程，Flute X GPT 是一个具体的例子，利用 LLM 代理人、提示管理器和一个管笛教学的多模式软硬件系统来促进学习吹笛的复杂实时用户体验。

May, 2024

AppAgent: 多模态代理与智能手机用户

该研究介绍了一种基于大型语言模型的多模态代理框架，旨在操作智能手机应用程序，通过简化的操作空间模拟人类的点击和滑动等交互，避免了系统后端访问的需求，并扩大了其适用性。代理的功能核心是其创新的学习方法，通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务，通过在 10 个不同应用程序中进行 50 个任务的广泛测试，证明了代理在处理各种高级任务上的熟练程度。

Dec, 2023

关于人工智能启发的用户界面设计

通过本文讨论了三种不同的方法来利用人工智能 (AI) 来支持应用设计师创造更好、更多样化和更具创意的移动应用界面 (UI)：第一种方法是设计师可以使用大型语言模型 (LLM)，如 GPT，直接生成和调整一个或多个 UI；第二种方法是使用视觉 - 语言模型 (VLM) 有效地搜索大型截图数据集，例如应用商店中发布的应用；第三种方法是训练一个专门设计用于生成应用界面的扩散模型 (DM)，作为启发性图片。我们讨论了如何使用 AI 来激发和辅助创造性应用设计，而不是自动化它。

Jun, 2024

UGIF: UI 基础指令跟踪

为帮助新手学习如何自己使用智能手机，我们提出了一种基于自然语言的指导代理，然后使用大型语言模型解析自然语言说明并生成可以在设备上执行的宏。我们介绍了一个多语言、多模式的 UI 基础数据集 UGIF-DataSet，我们对不同的大型语言模型的性能进行比较，发现任务完成成功率为英语 UI 为 48%，非英语语言的性能下降到 32%。

Nov, 2022

ASSISTGUI：面向任务的桌面图形用户界面自动化

使用大型语言模型的图形用户界面（GUI）自动化在处理复杂任务方面有很大潜力。本论文介绍了一个新的基准测试框架 AssistGUI，评估模型是否能够响应用户请求的任务，在 Windows 平台上操纵鼠标和键盘。实验结果显示，我们的 GUI Parser 和 Reasoning 机制在性能上优于现有方法，但在基准测试中，最佳模型的成功率仅为 46％。通过对当前方法的限制进行彻底分析，为未来在该领域取得突破奠定基础。

Dec, 2023

大型语言用户界面：由 LLM 驱动的语音交互用户界面

通过利用大型语言模型 (LLMs) 的升级力量，本研究关注于构建一个可作为用户与用户界面之间中介的框架，通过对自然文本输入进行彻底分析，有效地理解用户需求，使得精心设计的 LLM 引擎能够分类最可能的可用应用程序，识别所需的用户界面组件，并随后执行用户预期行为，从而将静态用户界面系统转变为高度动态和适应性强的解决方案，引入智能和响应式用户体验的新领域。这样的框架可以从根本上改变用户完成日常任务的方式，提高效率，并大大减少认知负荷。

Feb, 2024