DroidBot-GPT: 基于 GPT 的 Android UI 自动化

Apr, 2023

DroidBot-GPT: 基于 GPT 的 Android UI 自动化

DroidBot-GPT: GPT-powered UI Automation for Android

Hao Wen, Hongming Wang, Jiaxuan Liu, Yuanchun Li

TL;DR该论文介绍了一种名为 DroidBot-GPT 的工具，利用大型语言模型（LLMs）自动化与 Android 移动应用程序的交互。给定所需任务的自然语言描述，DroidBot-GPT 可以自动生成并执行操作，以完成任务。

Abstract

This paper introduces droidbot-gpt, a tool that utilizes GPT-like large language models (LLMs) to automate the interactions with Android mobile applications. Given a natural language description of a desired task

droidbot-gpt language models android applications automation natural language prompts

发现论文，激发创造

强化 LLM 使用智能手机进行智能任务自动化

AutoDroid 是一种能够在 Android 应用上自动执行任意任务且无需人工努力的移动任务自动化系统，通过自动化的动态分析将 LLMs 的常识知识与应用程序的领域特定知识相结合，实现了功能感知的 UI 表示方法、基于探索的内存注入技术以及多粒度查询优化模块等主要组件，表现出了优于 GPT-4 的效果。

Aug, 2023

自主大型语言模型代理实现驱动意图的移动 GUI 测试

DroidAgent 是一个用于自动化 GUI 测试的智能代理，它基于大规模语言模型和支持机制以实现对 Android 应用的语义驱动自动测试，在实验评估中展现了较高水平的自主性和与应用的深度交互，根据测试结果，DroidAgent 相较于现有的 GUI 测试技术具有更高的活动覆盖率。

Nov, 2023

RoboGPT：为日常指令任务做出智能长期决策的智能代理

在这篇研究论文中，我们提出了一种名为 RoboGPT 的机器人代理，通过两个模块（基于 LLMs 的规划与重新规划，以及专为子目标设计的 RoboSkill）来完成日常任务的具体决策。我们使用了一份新的机器人数据集和 RoboGPT 来增强基于 LLMs 的规划，并成功在诸多任务中超越了目前的最先进方法。

Nov, 2023

AutoML-GPT：使用 GPT 进行自动化机器学习

AutoML-GPT 是一种使用大型语言模型和任务导向提示的自动化训练管道，可自动处理数据、选择最佳模型架构和超参数优化，并在计算机视觉、自然语言处理等领域实现了显著的结果，对于许多 AI 任务具有广泛的适用性。

May, 2023

探索、选择、派生和召回：为移动任务自动化增添类似人类记忆的 LLM

MemoDroid 是一种基于大型语言模型的创新移动任务自动化器，通过模拟人类与移动应用程序的认知过程（探索、选择、推导和回忆），将任务分解为可重用、可重新排列和适应于各种目标的模块化组件，实现对任务过程的精确和高效学习。使用在线语言模型服务（GPT-3.5 和 GPT-4）实现 MemoDroid，并在 5 个广泛使用的移动应用程序上对 50 个独特的移动任务进行评估。结果表明，与 GPT-4 驱动的基线相比，MemoDroid 能够以 100％的准确性适应不同的上下文，将任务的延迟和成本分别降低了 69.22％和 77.36％。

Dec, 2023

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

DiagGPT：面向任务导向对话的基于 LLM 的聊天机器人及自动话题管理

本文介绍了一种创新方法 DiagGPT，将大型语言模型（LLMs）扩展到任务导向对话（TOD）场景，并通过实验证明 DiagGPT 在 TOD 方面表现出色，显示出实际应用的潜力。

Aug, 2023

GPT-4V 在仙境中：用于零封注册手机 GUI 导航的大型多模态模型

使用基于 GPT-4V 的 MM-Navigator 代理，通过先进的屏幕解析、动作推理和精确的动作定位能力，在智能手机图形用户界面（GUI）导航任务中实现了零射击导航，并在 iOS 和 Android 上展示了优异的性能。

Nov, 2023

DoraemonGPT: 面向理解动态场景的大型语言模型

通过大型语言模型驱动的 DoraemonGPT 系统，我们能够处理动态视频任务，利用空间 - 时间查询和推理工具进行简洁而相关的中间结果，同时通过蒙特卡洛树搜索驱动的规划器高效探索大规模计划空间，并以多种解决方案总结出改进的最终答案。在各种复杂问题的评估中，DoraemonGPT 展示了比以往研究更强大的能力。

Jan, 2024

ChatGPT 作为您的个人数据科学家

本研究介绍了一种基于 ChatGPT 的对话式自动化机器学习 (AutoML) 框架作为 “个人数据科学家”，通过多个语言模型实例构建了自然界面，展示了对话式数据科学的新概念，同时也突出了 ChatGPT 的潜在缺陷和改进机会。

May, 2023