MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

Jun, 2024

MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents

Luyuan Wang, Yongyu Deng, Yiwei Zha, Guodong Mao, Qinmin Wang...

TL;DR通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。

Abstract

large language model (LLM)-based mobile agents are increasingly popular due to their capability to interact directly with mobile phone Graphic User Interfaces (GUIs) and their potential to autonomously manage dai

large language model mobile agents benchmarking user-friendly performance

发现论文，激发创造

移动贝奇：一种用于基于 LLM 的移动代理的评估基准

通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设计用于评估多应用程序协作场景，并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。

Jul, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

基于多样配置的移动设备控制代理的基准测试

通过引入 B-MoCA 基准测试，本研究针对移动设备控制代理开发自主代理，提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试，定义了 60 项常见日常任务，并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性，但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。

Apr, 2024

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

复杂 Android 环境下大型语言模型代理的漏洞分析

大型语言模型 (LLM) 在特定领域的软件（如浏览器和游戏）中赋予智能代理执行复杂任务的能力。然而，应用于操作系统等通用软件系统时，LLM 代理面临三个主要挑战：广泛且动态的操作空间，跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena，通过可扩展的、半自动化的方法构建了该基准。研究结果发现，即使是最先进的 LLM 代理在跨应用程序情景和遵守特定约束方面也存在困难。此外，通过对反思能力的失败进行实证分析，提出的探索策略将成功率提高了 27%。该工作首次揭示了 LLM 代理的细粒度弱点，并为未来研究提供了方向。AndroidArena 的环境、基准以及评估代码已在链接中公开发布。

Feb, 2024

AppAgent: 多模态代理与智能手机用户

该研究介绍了一种基于大型语言模型的多模态代理框架，旨在操作智能手机应用程序，通过简化的操作空间模拟人类的点击和滑动等交互，避免了系统后端访问的需求，并扩大了其适用性。代理的功能核心是其创新的学习方法，通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务，通过在 10 个不同应用程序中进行 50 个任务的广泛测试，证明了代理在处理各种高级任务上的熟练程度。

Dec, 2023

移动 Agent：具有视觉感知的自主多模移动设备 Agent

本文介绍了一个基于多模式大语言模型的移动设备代理应用程序 Mobile-Agent，它可以通过视觉感知工具识别和定位应用程序前端界面中的视觉和文本元素，并根据感知到的视觉上下文自主规划和分解复杂操作任务，通过逐步操作导航移动应用程序。通过基于 Mobile-Eval 的综合评估，实验结果表明 Mobile-Agent 在移动设备操作方面表现出了显著的准确性和完成率。

Jan, 2024

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升 LLM 代理的进展

通过构建可扩展的模块化基准和评估指标，提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024

评估大型语言模型作为人工智能研究代理 agent

我们提出了一种基于 LLM 的研究代理的研究，该代理可以在机器学习工程问题中执行实验循环，并且我们开发了 MLAgentBench 来评估这些代理的性能与效率。

Oct, 2023

自主大型语言模型代理实现驱动意图的移动 GUI 测试

DroidAgent 是一个用于自动化 GUI 测试的智能代理，它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试，在实验评估中展现了较高水平的自主性和与应用的深度交互，根据测试结果，DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。

Nov, 2023