高效提取边缘应用的 LLM

ACLApr, 2024

Efficiently Distilling LLMs for Edge Applications

Achintya Kundu, Fabian Lim, Aaron Chew, Laura Wynter, Penny Chong...

TL;DRMLFS 是一种能够通过多级低秩微调超级变压器实现参数高效的超网络训练方法，可产生适用于商业边缘应用的高质量编码器模型，并可通过对解码器进行切片来显著减少训练时间。

Abstract

supernet training of llms is of great interest in industrial applications as it confers the ability to produce a palette of smaller models at constant cost, regardless of the number of models (of different size /

supernet training llms multistage low-rank fine-tuning super-transformers parameter-efficient

发现论文，激发创造

在高效基础上构建：利用结构化前馈层有效训练 LLMs

通过结构化的前馈网络，使用线性层近似来减少大型语言模型的参数数量和计算成本，同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学，从而在训练和推断中实现高效和有效的结果。

Jun, 2024

在最边缘上的 LLM 联邦微调：好，坏，丑陋

通过硬件为中心的方法，本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统，并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调，以进行文本摘要任务。通过与数据中心 GPU 的比较，我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力，并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。

Oct, 2023

FinGPT-HPC: 高性能计算在金融应用中高效地预训练和微调大型语言模型

通过利用低秩结构以及量化参数，本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型，以实现金融应用，并取得了较快的速度和高模型压缩比，同时保持了很高的准确率。

Feb, 2024

大规模语言模型的稀疏微调扩展

大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调，但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果，本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs，实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好，并且在运行时间上可比较。

Jan, 2024

一种适用于所有的 QuantLLM: 为高效部署而进行的量化 LLM 微调

利用一次训练的一揽子模型，通过去耦合共享权重、使用低秩适配器、调节采样率等方式，减少大型语言模型的内存需求和训练时间，同时保持高性能。

May, 2024

基于英特尔 GPU 的高效 LLM 推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量，在 Intel GPU 上相对于标准 HuggingFace 实现，能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。

Dec, 2023

MiniALBERT: 基于参数高效递归 Transformer 的模型蒸馏

本文介绍 MiniALBERT，一种将已有的完全参数化的语言模型转换为压缩递归模型的技术，探讨了论文中提出的模型蒸馏、跨层参数共享、瓶颈适配器等技术对压缩模型的 fine-tuning 效果以及在多种领域的实验结果。

Oct, 2022

标签监督的 LLaMA 微调

本文介绍了一种基于标签监督的适应大语言模型（LLMs）的方法，通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中，该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Large 和 RoBERTa-Large。此外，通过从解码器中移除因果掩码，LS-unLLaMA 在命名实体识别（NER）中实现了最先进的性能。

Oct, 2023

使用轻量级的语言特定模块压缩多语言知识

本文提出了 Language-Specific Matrix Synthesis (LMS) 方法以解决多语言机器翻译领域中语言特定模块的可扩展性问题，并通过 Fuse Distillation 技术将模块知识压缩至单个共享模块提高推理效率和模型序列化能力。该方法在与同样额外参数的 LS 方法和 MoE 方法相比中获得更好的翻译性能，而且有着更少的参数。

May, 2023

低资源口语理解的瓶颈低秩变换器

本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成，从而避免使用预先训练的参数较多的大型模型。

Jun, 2022