Dec, 2023

AppAgent: 多模态代理与智能手机用户

TL;DR该研究介绍了一种基于大型语言模型的多模态代理框架,旨在操作智能手机应用程序,通过简化的操作空间模拟人类的点击和滑动等交互,避免了系统后端访问的需求,并扩大了其适用性。代理的功能核心是其创新的学习方法,通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务,通过在10个不同应用程序中进行50个任务的广泛测试,证明了代理在处理各种高级任务上的熟练程度。