内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

Dec, 2022

内存高效的 NLLB-200：大规模多语言机器翻译模型的语言专家剪枝

Memory-efficient NLLB-200: Language-specific Expert Pruning of a Massively Multilingual Machine Translation Model

Yeskendir Koishekenov, Vassilina Nikoulina, Alexandre Berard

TL;DR提出了一种修剪方法，可在保持翻译质量的同时，移除多语言机器翻译中不相关的习惯用语，并检测出特定语种的专家，以便使用 Sparse Mixture-of-Experts 模型在单个 GPU 上运行。

Abstract

Compared to conventional bilingual translation systems, massively multilingual machine translation is appealing because a single model can translate into multiple languages and benefit from knowledge transfer for low resource languages. On the other hand, massively multilingual models suffer from the curse of multilinguality, unless scaling their size massiv

massively multilingual machine translation sparse mixture-of-experts model pruning method translation quality language-specific experts

发现论文，激发创造

不是所有专家都是平等的：用于混合专家大型语言模型的高效专家修剪和跳过

通过引入插拔式专家级稀疏化技术，本文主要针对 MoE LLMs 的部署效率进行了改进，提出了任务无关和任务特定的专家修剪和跳过方法，从而同时减小模型大小、增加推理速度并保持满意的性能。

Feb, 2024

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

NutePrune: 高效、逐步精简大型语言模型的多个教师

大规模语言模型在资源受限的硬件上部署具有挑战性，本研究提出了一种高效的结构剪枝算法 NutePrune，通过逐步引导剪枝模型的方法，在保持整体性能的同时，减小了内存开销和提高了推理速度。

Feb, 2024

大语言模型的多语言机器翻译：实证结果和分析

本文系统地研究了大型语言模型在多语言机器翻译中的优势和挑战，并在 102 种语言上评估了 XGLM、OPT、BLOOMZ 和 ChatGPT 四种常见模型的性能。在进一步分析中，本文发现大型语言模型在多语言机器翻译中具有一些新的工作方式。

Apr, 2023

多语言大型语言模型与多语言性诅咒

多语言大型语言模型在自然语言处理领域的研究人员和从业者中广受欢迎。本文介绍了多语言大型语言模型的技术方面，并对其底层架构、目标函数、预训练数据来源和分词方法进行了概述。此外，还探讨了不同模型类型的独特特征，包括仅编码器模型、仅解码器模型和编码器 - 解码器模型。同时，还讨论了多语言大型语言模型的一个重要局限性，即多语言之间的相互影响问题，并探究了克服这一问题的当前尝试。

Jun, 2024

高稀疏性基础 Llama 模型的高效预训练和部署

通过稀疏性，我们能够以较小的模型实现更快的训练和推理加速，并且不牺牲准确性。

May, 2024

大型语言模型的一次性敏感度感知混合稀疏剪枝

通过基于 Hessian 灵敏度感知的混合稀疏剪枝方法，我们提出了一种剪枝 LLMs 的方法，以至少达到 50% 的稀疏度，而不需要任何重新训练，该方法适应性地分配稀疏度，减少了剪枝引起的错误，同时保持了整体稀疏度水平，并且在稀疏度极高时表现出更显著的优势，此外，我们的方法与量化兼容，从而进一步压缩 LLMs。

Oct, 2023

Letz Translate: 用于卢森堡语的低资源机器翻译

本文介绍了一种使用知识蒸馏技术以及基于高资源语言的资源有效模型实现低资源语言机器翻译的方法。在以卢森堡语为例子的实验中，资源有效模型相比于大型 NLLB 模型速度提高了 30％以上且性能仅下降了 4％。

Mar, 2023

大规模语言模型的结构剪枝 ——LLM-Pruner

提出一种名为 LLM-Pruner 的方法，在保持多任务求解和语言生成能力的同时，通过结构修剪来压缩 LLM，使得压缩模型在零样本分类和生成上仍然表现出令人满意的能力，并且只需要 50K 数据，在 3 小时内就能通过调整技术（LoRA）有效地恢复性能。

May, 2023

GenTranslate：大型语言模型是生成式跨语音和机器翻译器

利用大型语言模型的丰富语言知识和强大的推理能力，我们提出了一种新的生成式翻译范式 ——“GenTranslate”，可以从 N 个候选译文中生成更高质量的翻译结果，并且在各种语音和机器翻译基准测试中明显优于现有模型。

Feb, 2024