迈向基于设备的文本改写代理

Aug, 2023

Towards an On-device Agent for Text Rewriting

Yun Zhu, Yinxiao Liu, Felix Stahlberg, Shankar Kumar, Yu-hui Chen...

TL;DR使用指令调整的新方法构建了一个移动中心的文本改写模型，通过高质量的无需人工标注的训练数据和启发式强化学习框架提高性能，并通过级联方法将移动重写代理与服务器模型结合，从而在保持显著减小模型尺寸的同时，超越了目前最先进的大型语言模型在文本重写方面的性能。

Abstract

large language models (LLMs) have demonstrated impressive capabilities for text rewriting. Nonetheless, the large sizes of these models make them impractical for on-device inference, which would otherwise allow f

large language models text rewriting mobile-centric model instruction tuning cascading approach

发现论文，激发创造

RewriteLM：一种针对文本改写的指令调优大型语言模型

本文介绍了一种新的评估基准 OpenRewriteEval 和一个基于指令调整的大型语言模型 RewriteLM，重点是长篇文本重写，展示了该模型在保留源文本的核心内容和意义，减少幻觉生成的内容，并展示了生成具有多种措辞和结构的改写的能力。

May, 2023

加强对话式搜索：大型语言模型辅助的信息性查询改写

通过利用大型语言模型作为查询重写器，并结合精心设计的指令，我们定义了四个重写的关键属性，提出了基于大型语言模型的查询重写方法。我们还介绍了 LLMs 的重写能力的提炼，并采用 “先重写后编辑” 的方法来处理初始查询重写。实验结果在 QReCC 数据集上表明，信息丰富的查询重写可以显著提高检索性能，特别是在检索器稀疏的情况下。

Oct, 2023

个性化文本生成的自动提示改写

通过自动修订提示符来进行个性化文本生成的研究。

Sep, 2023

MELTing 点：语言变形器的移动评估

机器学习中的 Transformers 引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM 的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

革命性的移动互动：在移动设备上支持 30 亿参数的 GPT LLM

AI 领域近年来取得了显著的进展，尤其是基于变压器架构的强大大型语言模型（LLMs）的出现。本文介绍了一种创新的 LLM 推理方法，展望了在无需网络连接的情况下，拥有数十亿参数的 LLMs 可以直接在移动设备上执行的未来。该应用程序不仅作为一个通用助手，而且通过原生代码和模型量化技术的结合，还可以实现与文本到动作功能的无缝移动交互。文章还提供了关于本地 LLM 推理的训练流程、实现细节、测试结果和未来方向的见解。这一突破性技术为用户提供了强大的人工智能能力，同时保护了用户的隐私并消除了延迟问题。

Sep, 2023

PocketLLM: 个性化 LLM 模型的设备端微调

使用无导数优化技术，实现在内存受限的移动设备上进行大型语言模型的本地微调，为资源受限的设备开启个性化语言模型，同时保护数据隐私。

Jul, 2024

一个量化的大型语言模型在各种智能手机上的性能评估

本研究探讨在各种苹果 iPhone 型号上进行设备内大型语言模型 (LLM) 推理的可行性和性能。通过对运行在有限资源设备上的数十亿参数的 LLM 的现有文献进行利用，我们的研究考察了高性能 LLM 在不同智能手机世代上的热效应和交互速度。通过提供实际性能结果，我们提供了关于设备内推理能力的见解。

Dec, 2023

MobileLLM: 优化千亿级语言模型，以满足设备上的使用需求

通过设计深而瘦的体系结构以及嵌入共享和分组查询注意机制，我们提出了一种名为 MobileLLM 的强基线网络，它在先前的 125M/350M 最先进模型上分别获得 2.7%/4.3% 的准确度提升。此外，我们还提出了一种即时的分块权重共享方法，不增加模型大小且仅有微小的延迟开销。MobileLLM-LS 模型进一步提升了 0.7%/0.8% 的准确度，相较于 MobileLLM 125M/350M。此外，MobileLLM 模型系列在聊天基准测试中相较于之前的次十亿模型有显著提升，并在 API 调用任务中表现出接近 LLaMA-v2 7B 的正确性，突显了小型模型在常见设备使用情景中的能力。

Feb, 2024

利用大型语言模型实现移动界面的交互式对话功能

本文旨在通过预训练大型语言模型及相应的提示技术，实现轻量级、可通用的基于自然语言的手机交互，解决开发人员需要针对每项具体任务创建独立数据集和模型的成本和劳动力问题。研究表明，针对移动 UI 设计的四项重要建模任务中，我们的方法在不需要专用数据集和训练的情况下，取得了令人满意的竞争成绩。

Sep, 2022

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024