通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。
Jun, 2024
通过硬件为中心的方法,本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统,并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调,以进行文本摘要任务。通过与数据中心 GPU 的比较,我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力,并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。
Oct, 2023
通过利用低秩结构以及量化参数,本论文提出了一种高性能的基于 GPU 的方法用于预训练和微调大型语言模型,以实现金融应用,并取得了较快的速度和高模型压缩比,同时保持了很高的准确率。
Feb, 2024
大型语言模型 (Large Language Models) 在指令或人类反馈方面很难进行全面的微调,但参数高效稀疏微调 (sparse fine-tuning) 的方法已经在性能上取得了一定的成果,本文将稀疏微调方法扩展到像 LLaMA 2 7B 和 13B 这样的最先进的 LLMs,实验证明对指令调整进行稀疏微调通常比流行的参数高效微调方法如 LoRA 表现更好,并且在运行时间上可比较。
Jan, 2024
利用一次训练的一揽子模型,通过去耦合共享权重、使用低秩适配器、调节采样率等方式,减少大型语言模型的内存需求和训练时间,同时保持高性能。
May, 2024
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落 KV 缓存策略等方法降低系统延迟并提高吞吐量,在 Intel GPU 上相对于标准 HuggingFace 实现,能够实现高达 7 倍的令牌延迟降低和 27 倍的吞吐量提升。
Dec, 2023
本文介绍 MiniALBERT,一种将已有的完全参数化的语言模型转换为压缩递归模型的技术,探讨了论文中提出的模型蒸馏、跨层参数共享、瓶颈适配器等技术对压缩模型的 fine-tuning 效果以及在多种领域的实验结果。
Oct, 2022
本文介绍了一种基于标签监督的适应大语言模型(LLMs)的方法,通过从 LLMs 提取潜在表示并将其投影到标签空间计算交叉熵损失来微调模型。在各种下游任务中,该方法显著优于比其十倍规模的 LLMs 以及其他强大的基线模型如 BERT-Large 和 RoBERTa-Large。此外,通过从解码器中移除因果掩码,LS-unLLaMA 在命名实体识别(NER)中实现了最先进的性能。
本文提出了 Language-Specific Matrix Synthesis (LMS) 方法以解决多语言机器翻译领域中语言特定模块的可扩展性问题,并通过 Fuse Distillation 技术将模块知识压缩至单个共享模块提高推理效率和模型序列化能力。该方法在与同样额外参数的 LS 方法和 MoE 方法相比中获得更好的翻译性能,而且有着更少的参数。
May, 2023
本文介绍了如何使用变形器结构并应用群稀疏技术实现拥有较高精度、更小规模 SLU 模型的生成,从而避免使用预先训练的参数较多的大型模型。
Jun, 2022