大规模互动追踪的自动宏挖掘

Oct, 2023

Automatic Macro Mining from Interaction Traces at Scale

Forrest Huang, Gang Li, Tao Li, Yang Li

TL;DR本文介绍了一种基于大型语言模型的新方法，可以自动从随机和用户策划的移动交互痕迹中提取具有语义含义的宏，并带有自然语言描述和完全可执行的标签。通过用户评估、与人工策划任务的比较分析以及这些宏的自动执行，我们对提取的质量进行了多项研究和分析，展示了我们方法的有效性和提取宏用于各种下游应用的实用性。

Abstract

macros are building block tasks of our everyday smartphone activity (e.g., "login", or "booking a flight"). Effectively extracting macros is important for understanding →

macros mobile interaction task automation large language models extraction

发现论文，激发创造

强化 LLM 使用智能手机进行智能任务自动化

AutoDroid 是一种能够在 Android 应用上自动执行任意任务且无需人工努力的移动任务自动化系统，通过自动化的动态分析将 LLMs 的常识知识与应用程序的领域特定知识相结合，实现了功能感知的 UI 表示方法、基于探索的内存注入技术以及多粒度查询优化模块等主要组件，表现出了优于 GPT-4 的效果。

Aug, 2023

探索、选择、派生和召回：为移动任务自动化增添类似人类记忆的 LLM

MemoDroid 是一种基于大型语言模型的创新移动任务自动化器，通过模拟人类与移动应用程序的认知过程（探索、选择、推导和回忆），将任务分解为可重用、可重新排列和适应于各种目标的模块化组件，实现对任务过程的精确和高效学习。使用在线语言模型服务（GPT-3.5 和 GPT-4）实现 MemoDroid，并在 5 个广泛使用的移动应用程序上对 50 个独特的移动任务进行评估。结果表明，与 GPT-4 驱动的基线相比，MemoDroid 能够以 100％的准确性适应不同的上下文，将任务的延迟和成本分别降低了 69.22％和 77.36％。

Dec, 2023

基于 LLM 的智能虚拟助理与流程自动化

通过使用大型语言模型（LLMs），本研究提出了一种新颖的基于 LLM 的虚拟助手，能够根据高级用户请求自动执行手机应用程序中的多步操作，该系统采用了一种端到端的解决方案来解析指令，推理目标并执行操作，实验证明该系统可在支付宝上以自然语言指令完成复杂的移动操作任务，展示了大型语言模型在实现自动助手完成实际任务方面的潜力。

Dec, 2023

利用大型语言模型实现移动界面的交互式对话功能

本文旨在通过预训练大型语言模型及相应的提示技术，实现轻量级、可通用的基于自然语言的手机交互，解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明，针对移动 UI 设计的四项重要建模任务中，我们的方法在不需要专用数据集和训练的情况下，取得了令人满意的竞争成绩。

Sep, 2022

AutoScrum：利用大型语言模型自动化项目规划

本文介绍了如何利用大型语言模型进行复杂项目计划的设计，采用了 Scrum 方法和快捷方法两种方式，并通过 “语言方案” 自动化处理所有操作，以达到更高效的任务完成。

Jun, 2023

AXNav：从自然语言重播辅助测试

本文研究了使用自然语言和大型语言模型进行辅助技术控制以支持可访问性测试，并构建了一个系统，该系统使用大型语言模型和基于像素的用户界面理解模型执行测试并生成可分章节、可导航的视频，通过 10 名可访问性质量保证专业人员的用户研究评估，表明该工具在提高工作效率方面非常有用，并揭示了将大型语言模型应用于可访问性测试的未来工作方向。

Oct, 2023

利用相關的靜態分析產品改進少樣本提示

本文研究了是否通过显式添加语义信息来改善大型语言模型在代码汇总任务中的性能，发现通过添加语义信息可以显著提高模型性能，特别是在 PHP 语言的 CodeSearchNet 数据集上。

Apr, 2023

语言模型实现简单系统，用于生成异构数据湖结构化视图

本文介绍 Evaporate 和 Evaporate-code+ 系统，用大的语言模型库开发这些系统可以在保证较低成本的同时提高提取数据质量，并且在处理了一系列文档的情况下达到了比现有技术更好的性能.

Apr, 2023

AppAgent: 多模态代理与智能手机用户

该研究介绍了一种基于大型语言模型的多模态代理框架，旨在操作智能手机应用程序，通过简化的操作空间模拟人类的点击和滑动等交互，避免了系统后端访问的需求，并扩大了其适用性。代理的功能核心是其创新的学习方法，通过自主探索或观察人类示范学习并构建知识库以执行跨不同应用的复杂任务，通过在 10 个不同应用程序中进行 50 个任务的广泛测试，证明了代理在处理各种高级任务上的熟练程度。

Dec, 2023

L2MAC：大型语言模型自动计算机无限编码生成

Transformer-based language models are limited by a fixed window size, but this paper proposes L2MAC, a memory-augmented stored-program automatic computer that can generate long and consistent code surpassing the limitations of the context window, fulfilling complex user-specified requirements.

Oct, 2023