Sep, 2023

你只看屏幕:多模态行动训练智能体

TL;DR自主用户界面 (UI) 代理旨在通过与用户界面的自动交互来促进任务自动化。为了对齐于大型语言模型 (LLMs) 的输入 - 输出需求,现有方法在沙盒环境下开发,依赖外部工具和应用特定的 API 将环境解析为文本元素并解释预测的动作。为了减轻这些挑战,我们引入了 Auto-UI,这是一个多模态的解决方案,直接与界面交互,无需环境解析或依赖应用程序相关的 API。此外,我们提出了一种链式动作技术 —— 利用一系列中间的先前动作历史和未来动作计划 —— 以帮助代理决定执行什么动作。我们在一个新的设备控制基准 AITW 上评估了我们的方法,该基准包含 30K 个独特的指令,涵盖应用操作、网络搜索和网购等多步任务。实验结果显示,Auto-UI 实现了 90% 的动作类型预测准确率和 74% 的整体动作成功率。