DroidBot-GPT: 基于 GPT 的 Android UI 自动化
AutoDroid 是一种能够在 Android 应用上自动执行任意任务且无需人工努力的移动任务自动化系统,通过自动化的动态分析将 LLMs 的常识知识与应用程序的领域特定知识相结合,实现了功能感知的 UI 表示方法、基于探索的内存注入技术以及多粒度查询优化模块等主要组件,表现出了优于 GPT-4 的效果。
Aug, 2023
DroidAgent 是一个用于自动化 GUI 测试的智能代理,它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试,在实验评估中展现了较高水平的自主性和与应用的深度交互,根据测试结果,DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。
Nov, 2023
在这篇研究论文中,我们提出了一种名为 RoboGPT 的机器人代理,通过两个模块(基于 LLMs 的规划与重新规划,以及专为子目标设计的 RoboSkill)来完成日常任务的具体决策。我们使用了一份新的机器人数据集和 RoboGPT 来增强基于 LLMs 的规划,并成功在诸多任务中超越了目前的最先进方法。
Nov, 2023
AutoML-GPT 是一种使用大型语言模型和任务导向提示的自动化训练管道,可自动处理数据、选择最佳模型架构和超参数优化,并在计算机视觉、自然语言处理等领域实现了显著的结果,对于许多 AI 任务具有广泛的适用性。
May, 2023
MemoDroid 是一种基于大型语言模型的创新移动任务自动化器,通过模拟人类与移动应用程序的认知过程(探索、选择、推导和回忆),将任务分解为可重用、可重新排列和适应于各种目标的模块化组件,实现对任务过程的精确和高效学习。使用在线语言模型服务(GPT-3.5 和 GPT-4)实现 MemoDroid,并在 5 个广泛使用的移动应用程序上对 50 个独特的移动任务进行评估。结果表明,与 GPT-4 驱动的基线相比,MemoDroid 能够以 100%的准确性适应不同的上下文,将任务的延迟和成本分别降低了 69.22%和 77.36%。
Dec, 2023
AI 领域近年来取得了显著的进展,尤其是基于变压器架构的强大大型语言模型(LLMs)的出现。本文介绍了一种创新的 LLM 推理方法,展望了在无需网络连接的情况下,拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手,而且通过原生代码和模型量化技术的结合,还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力,同时保护了用户的隐私并消除了延迟问题。
Sep, 2023
本文介绍了一种创新方法 DiagGPT,将大型语言模型(LLMs)扩展到任务导向对话(TOD)场景,并通过实验证明 DiagGPT 在 TOD 方面表现出色,显示出实际应用的潜力。
Aug, 2023
使用基于 GPT-4V 的 MM-Navigator 代理,通过先进的屏幕解析、动作推理和精确的动作定位能力,在智能手机图形用户界面(GUI)导航任务中实现了零射击导航,并在 iOS 和 Android 上展示了优异的性能。
Nov, 2023
通过大型语言模型驱动的 DoraemonGPT 系统,我们能够处理动态视频任务,利用空间 - 时间查询和推理工具进行简洁而相关的中间结果,同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间,并以多种解决方案总结出改进的最终答案。在各种复杂问题的评估中,DoraemonGPT 展示了比以往研究更强大的能力。
Jan, 2024
本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”,通过多个语言模型实例构建了自然界面,展示了对话式数据科学的新概念,同时也突出了 ChatGPT 的潜在缺陷和改进机会。
May, 2023