Confidant: 基于协作边缘训练的定制 Transformer 语言模型

Nov, 2023

Confidant: 基于协作边缘训练的定制 Transformer 语言模型

Confidant: Customizing Transformer-based LLMs via Collaborative Edge Training

Yuhao Chen, Yuxuan Yan, Qianqian Yang, Yuanchao Shu, Shibo He...

TL;DR为了在手机等无线设备上进行自定义最先进的语言模型（LLM）的训练，我们提出了 Confidant，这是一个多后端协同训练框架。Confidant 将 LLM 划分为几个子模型，以适应手机设备的内存，同时开发了一个管道并行训练机制以确保快速和高效的分布式训练。此外，我们提出了一种新颖的后端调度器，将不同的注意力头分配给包括手机 CPU 和 GPU 在内的异构计算硬件，以最大程度地提高每个边缘设备上的计算资源利用。我们的初步实验结果表明，Confidant 在实际环境中实现了最多 45.3% 的内存减少和 8.03 倍的推理加速。

Abstract

transformer-based large language models (LLMs) have demonstrated impressive capabilities in a variety of natural language processing (NLP) tasks. Nonetheless, it is challenging to deploy and fine-tune LLMs on mobile edge devices with limited computing, memory, and energy budgets. In th

transformer-based large language models confidant mobile edge devices multi-backend collaborative training framework memory reduction

发现论文，激发创造

在资源受限的边缘设备上部署 LLMs 的实践指南

通过对学习方法、个性化数据使用量、语言模型的类型和大小、压缩方法以及学习时间和目标用例难度之间的权衡进行实证研究，我们找到了一些用于将语言模型部署到资源受限设备上的指导方针。

Jun, 2024

自信的自适应语言建模

使用 Confident Adaptive Language Modeling（CALM）动态分配不同量的计算资源，早期退出解码以减少计算，从而在维持高性能的同时最多可提速三倍，理论分析和实验表明其在减少计算方面的有效性。

Jul, 2022

EDGE-LLM：通过层间统一压缩和自适应层调整与投票在边缘设备上实现高效的大型语言模型适应

边缘设备上实现的大型语言模型 (LLM) 的高效调整是连续和隐私保护适应和推理所需的关键，本研究介绍了一种计算和内存高效的 LLM 调整框架 Edge-LLM，通过生成逐层剪枝稀疏性和量化位宽策略来减少计算开销，通过减少反向传播深度的自适应层调整和投票方案来减少内存开销，通过处理 LUC 和自适应层调整引入的不规则计算模式的互补硬件调度策略来实现高效的计算和数据移动。实验证明，Edge-LLM 相比原始调整方法在任务准确性相当的情况下实现了 2.92 倍的加速和 4 倍的内存开销降低。

Jun, 2024

LLMs 能理解加密提示：迈向隐私计算友好型变压器

本文展示了将 transformer 模型中的运算和通信重负荷的操作替换成隐私计算友好的近似可以大大降低私有推理成本，并比先前最先进的 Iron（NeurIPS 2022）获得了 5 倍计算加速和 80% 的通信负担减少，同时保持几乎相同的准确性。

May, 2023

LLMCad: 快速可扩展的设备端大型语言模型推理

LLMCad 是一个创新的本地推理引擎，专为高效的自然语言处理任务而设计，通过模型协作实现高速的令牌生成。

Sep, 2023

Transformer-Lite: 在手机 GPU 上高效部署大型语言模型

为了在移动设备上高效部署大型语言模型，我们提出了四种优化技术：基于符号表达式的动态模型推断，操作符优化和执行优先级设置，FP4 量化方法以减少反量化开销，以及基于子张量的技术以消除 LLM 推断后的缓存拷贝需求，并利用这些方法实现了移动推断引擎 Transformer-Lite。与 CPU 和 GPU 的其他引擎相比，我们的引擎在填充速度上实现了超过 10 倍的加速，并在解码速度上实现了 2~3 倍的加速。

Mar, 2024

跨移动设备进行百亿规模语言模型的联邦微调

FwdLLM 是一种创新的 FL 协议，通过无需执行误差反向传播训练方法的方式，在手机设备上实现了更好的内存效率和时间效率，具有比传统方法更快的收敛速度和更小的内存占用。

Aug, 2023

MELTing 点：语言变形器的移动评估

机器学习中的 Transformers 引领了一场革命，但由于其运行时要求，不能广泛用于移动设备。该研究通过创建自动化基础设施 MELT 来评估大型语言模型在移动设备上的执行情况，并对性能、能效和准确性进行了量化。结果表明，移动设备的执行存在性能差异，LLM 的执行主要受内存限制。量化可以显著减少内存需求，但会带来一定的准确性损失。同时，作者认为生态系统仍处于初级阶段，并预测 NPU 加速和框架设备协同设计是实现有效独立执行的最佳选择。

Mar, 2024

边缘设备的分布式威胁情报：基于大型语言模型的方法

通过将轻量级机器学习模型部署到边缘设备上，实时分析本地数据流，如网络流量和系统日志，分发计算任务到边缘服务器提高响应性，提供更好的威胁检测和缓解措施，提高网络边缘的安全性。

May, 2024

LAMBO：大型语言模型增强边缘智能

利用大型语言模型（LLM）和移动边缘计算（MEC），我们提出了一种基于 LLM 的离线框架（LAMBO）来解决传统深度离线架构面临的问题，通过四个组成部分实现了高性能决策制定、预训练和在动态环境变化下微调解码器。模拟结果证实了 LAMBO 框架的优势。

Aug, 2023