Jul, 2024

移动贝奇:一种用于基于 LLM 的移动代理的评估基准

TL;DR通过引入 103 个 API 来扩展传统的 UI 操作,结合真实用户查询和 LLMs 的扩充数据,Mobile-Bench 提出了一种评估 LLM-based 移动代理能力的新型基准,其中包括 832 个数据输入和 200 多个任务,特别设计用于评估多应用程序协作场景,并引入了一种名为 CheckPoint 的更准确的评估指标来评估 LLM-based 移动代理在规划和推理步骤中是否达到关键点。