移动贝奇：一种用于基于 LLM 的移动代理的评估基准

Jul, 2024

移动贝奇：一种用于基于 LLM 的移动代理的评估基准

Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents

Shihan Deng, Weikai Xu, Hongda Sun, Wei Liu, Tao Tan...

TL;DR通过引入 103 个 API 来扩展传统的 UI 操作，结合真实用户查询和 LLMs 的扩充数据，Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准，其中包括 832 个数据输入和 200 多个任务，特别设计用于评估多应用程序协作场景，并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。

Abstract

With the remarkable advancements of large language models (LLMs), LLM-based agents have become a research hotspot in human-computer interaction. However, there is a scarcity of benchmarks available for llm-based mobile

large language models llm-based mobile agents benchmark evaluation metrics multi-app collaboration scenarios

发现论文，激发创造

MobileAgentBench: 移动 LLM 代理的高效且用户友好的基准测试

通过提出 MobileAgentBench 这一高效且用户友好的基准测试工具，对现有移动代理进行全面和系统性的性能比较，以解决应用程序状态无穷和可行操作序列定义模糊的挑战。

Jun, 2024

MobileAIBench: 用于设备上应用场景的 LLM 和 LMM 基准测试

通过使用较少参数和定量化等模型压缩技术，MobileAIBench 评估了多尺寸、定量化水平和任务，并在真实设备上测量延迟和资源消耗，旨在提供在移动平台上部署大型语言模型和多模态模型的性能和可行性洞察，加速移动 AI 研究和部署。

Jun, 2024

AgentBench: 评估语言模型为代理人

大型语言模型在互动环境中以多轮开放式生成的方式评估 LLMs 作为代理的推理和决策能力，显示出商业 LLMs 和开源竞争对手之间的性能差距。

Aug, 2023

CityBench: 评估大型语言模型作为世界模型的能力

在这篇论文中，我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准，通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态，设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理解和决策制定方面的能力，在 13 个城市的 13 个知名 LLMs 上进行了广泛实验，结果表明 CityBench 的可扩展性和效果，并对未来城市领域 LLMs 的发展提供了启示。

Jun, 2024

TaskBench: 用于任务自动化的大型语言模型基准测试

最近，大型语言模型的不断进展引发了任务自动化的火花，其将用户指令描述的复杂任务分解为子任务，并调用外部工具执行它们，在自主代理中起着核心作用。然而，缺乏一个系统的和标准化的基准来促进 LLM 在任务自动化中的发展。为此，我们引入了 TaskBench 来评估 LLM 在任务自动化中的能力。具体而言，任务自动化可以分为三个关键阶段：任务分解，工具调用和参数预测以实现用户意图。这种复杂性使得数据收集和评估与常见的自然语言处理任务相比更具挑战性。为了生成高质量的评估数据集，我们引入了工具图的概念来表示用户意图中的分解任务，并采用反指导方法来模拟用户指令和注释。此外，我们提出了 TaskEval 来从任务分解、工具调用和参数预测等不同方面评估 LLM 的能力。实验结果表明，TaskBench 能够有效地反映 LLM 在任务自动化中的能力。借助自动化数据构建和人工验证的综合，TaskBench 相对于人工评估具有高一致性，可以作为 LLM-based 自主代理的全面而可靠的基准。

Nov, 2023

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对 23 个最先进的 LLM 基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

LoTa-Bench: 为具有体现性代理的面向语言任务规划器进行基准测试

提出了一个针对家庭服务实体代理的任务规划性能自动量化基准系统，对大型语言模型和提示进行了广泛实验，并探索了基线任务规划器的多个改进，预计该基准工具将加快语言导向的任务规划器的发展。

Feb, 2024

基于多样配置的移动设备控制代理的基准测试

通过引入 B-MoCA 基准测试，本研究针对移动设备控制代理开发自主代理，提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试，定义了 60 项常见日常任务，并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性，但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。

Apr, 2024

MathBench：利用分层数学基准评估 LLMs 的理论和应用水平

通过 MathBench 新的基准测试，我们能够全面评估大型语言模型在数学能力方面的表现，首次提供了一个多维度视角，从基础算术到大学数学的不同阶段评估模型的能力，旨在提高对大型语言模型在数学能力方面的评估，为其知识水平和问题解决技能提供更深入的理解。

May, 2024

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升 LLM 代理的进展

通过构建可扩展的模块化基准和评估指标，提出了 AgentQuest 框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024