强化 LLM 使用智能手机进行智能任务自动化
MemoDroid 是一种基于大型语言模型的创新移动任务自动化器,通过模拟人类与移动应用程序的认知过程(探索、选择、推导和回忆),将任务分解为可重用、可重新排列和适应于各种目标的模块化组件,实现对任务过程的精确和高效学习。使用在线语言模型服务(GPT-3.5 和 GPT-4)实现 MemoDroid,并在 5 个广泛使用的移动应用程序上对 50 个独特的移动任务进行评估。结果表明,与 GPT-4 驱动的基线相比,MemoDroid 能够以 100%的准确性适应不同的上下文,将任务的延迟和成本分别降低了 69.22%和 77.36%。
Dec, 2023
该论文介绍了一种名为 DroidBot-GPT 的工具,利用大型语言模型(LLMs)自动化与 Android 移动应用程序的交互。给定所需任务的自然语言描述,DroidBot-GPT 可以自动生成并执行操作,以完成任务。
Apr, 2023
通过使用大型语言模型(LLMs),本研究提出了一种新颖的基于 LLM 的虚拟助手,能够根据高级用户请求自动执行手机应用程序中的多步操作,该系统采用了一种端到端的解决方案来解析指令,推理目标并执行操作,实验证明该系统可在支付宝上以自然语言指令完成复杂的移动操作任务,展示了大型语言模型在实现自动助手完成实际任务方面的潜力。
Dec, 2023
DroidAgent 是一个用于自动化 GUI 测试的智能代理,它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试,在实验评估中展现了较高水平的自主性和与应用的深度交互,根据测试结果,DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。
Nov, 2023
该研究介绍了一种基于大型语言模型的多模态代理框架,旨在操作智能手机应用程序,通过简化的操作空间模拟人类的点击和滑动等交互,避免了系统后端访问的需求,并扩大了其适用性。代理的功能核心是其创新的学习方法,通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务,通过在 10 个不同应用程序中进行 50 个任务的广泛测试,证明了代理在处理各种高级任务上的熟练程度。
Dec, 2023
利用大型语言模型和视觉语言模型,我们的研究致力于解决数字助理执行各种用户任务的挑战,特别是在基于指令的移动设备控制领域。通过与用户界面进行交互,我们的模型利用设备屏幕的视觉输入并模拟人类般的交互,包括点击和滑动等手势。这种输入和输出空间的广泛适用性使得我们的代理能够与设备上的任何应用程序进行交互。与以往方法不同的是,我们的模型不仅仅操作单个屏幕图像,还通过过去截图序列和相应操作生成视觉语言句子。在具有挑战性的 “Android in the Wild” 基准测试中评估我们的方法表明其有效性和潜力。
Apr, 2024
通过自动生成规则和提高适应性,AutoManual 框架使基于大型语言模型(LLM)的代理能够自主构建自身的理解并适应新的环境。在 ALFWorld 基准任务上,通过 GPT-4-turbo 和 GPT-3.5-turbo,AutoManual 显著提高了任务成功率,并生成了人可读的综合手册。
May, 2024
大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM 代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点,并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。
Feb, 2024
本文旨在通过预训练大型语言模型及相应的提示技术,实现轻量级、可通用的基于自然语言的手机交互,解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明,针对移动 UI 设计的四项重要建模任务中,我们的方法在不需要专用数据集和训练的情况下,取得了令人满意的竞争成绩。
Sep, 2022
自动驾驶技术是改变交通运输和城市流动性的催化剂,从基于规则的系统过渡到基于数据驱动的策略。该研究论文系统地回顾了大型语言模型在自动驾驶领域的应用,并评估了当前技术进展、主要挑战和未来方向。
Nov, 2023