Oct, 2024
移动安全基准:评估自主代理在移动设备控制中的安全性
MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile
Device Control
TL;DR本研究解决了当前缺乏针对移动设备控制代理的安全性标准评估基准的问题。我们提出了MobileSafetyBench,一个专门评估在真实移动环境中(基于Android模拟器)自主代理安全性的新方法。实验结果显示,尽管基线代理在执行任务时表现良好,但在安全性任务中的表现却较差,强调了在移动环境中继续研究更强安全机制的必要性。