Feb, 2024
复杂Android环境下大型语言模型代理的漏洞分析
Understanding the Weakness of Large Language Model Agents within a
Complex Android Environment
TL;DR大型语言模型 (LLM) 在特定领域的软件(如浏览器和游戏)中赋予智能代理执行复杂任务的能力。然而,应用于操作系统等通用软件系统时,LLM代理面临三个主要挑战:广泛且动态的操作空间,跨应用程序的合作需求以及符合用户约束条件的最优解。本研究设计了环境和基准测试工具 AndroidArena,通过可扩展的、半自动化的方法构建了该基准。研究结果发现,即使是最先进的LLM代理在跨应用程序情景和遵守特定约束方面也存在困难。此外,通过对反思能力的失败进行实证分析,提出的探索策略将成功率提高了27%。该工作首次揭示了LLM代理的细粒度弱点,并为未来研究提供了方向。AndroidArena的环境、基准以及评估代码已在链接中公开发布。