ICLRApr, 2024

基于多样配置的移动设备控制代理的基准测试

TL;DR通过引入 B-MoCA 基准测试,本研究针对移动设备控制代理开发自主代理,提高用户交互的效率和可访问性。在 Android 操作系统上创建了一个真实的基准测试,定义了 60 项常见日常任务,并通过随机化功能来评估代理的泛化性能。尽管代理们在执行简单任务方面展示出熟练性,但在复杂任务上的低效性凸显了未来研究改进其效果的重要机遇。