语言模型压缩的快速词汇传递
本文提出了一种叫做词汇修剪的方法,可将多语言语言模型压缩至任何语言,得到与原始模型同样的性能,同时比原始模型更小。我们在七种语言中评估了该方法,并表明该方法可以将最佳的单语言模型性能与多语言模型的优越性结合起来。
May, 2023
我们介绍了一种称为 Retrieval-based Knowledge Transfer (RetriKT) 的新型压缩模型的方法,通过从大规模预训练语言模型中提取知识,构建一个知识存储库,小规模模型可以从中检索相关信息并利用它进行有效推理,实验证明该方法显著提升了小规模模型的性能。
Oct, 2023
本研究提出了一种神经机器翻译(NMT)模型间的知识转移方法,通过共享动态词汇表来适应新语言,以达到提高翻译性能的目的,并在多种语言方向上进行了实验,结果表明具有良好的性能。
Nov, 2018
本文提出了一种句子级或批量级词汇表来缓解神经机器翻译模型中需使用大词汇表的问题。此方法根据源句子中每个单词或短语的翻译选项,选择非常小的目标词汇表,并基于单词翻译模型或双语短语库来实现。实验结果表明,该方法在英法翻译任务中的 BLEU 分数比 Jean 等人使用大词汇表的神经机器翻译系统高 1 个点。
May, 2016
这篇论文研究了大型语言模型的压缩和高效推理方法,介绍了分类为量化、修剪、蒸馏、紧凑架构设计和动态网络的压缩和加速算法,并提出了中型模型和真正大型模型的区分。此外,还介绍了一些用于大型模型高效推理的成熟框架,可以支持基本的压缩或加速算法,极大地方便了用户的模型部署。
Feb, 2024
通过压缩模型来解决预测问题和训练大型语言模型的相关研究,大型语言模型展现出强大的预测和压缩能力,此视角为规模定律、分词和上下文学习提供了新的观点,并且可以使用任何压缩器构建条件生成模型。
Sep, 2023
文章介绍了一种不需要共享词汇的方法,使用跨语言词嵌入来缓解语言间的词汇不匹配,注入人工噪声,从预训练数据轻松生成合成数据,并在五种低资源翻译任务中将纯 NMT 转移提高了 + 5.1% BLEU,优于多语言联合训练。
May, 2019
通过词汇匹配,将 BERT 的能力从高资源语言转移到低资源语言,以改善 BERT 模型在低资源语言上的性能,从而使得高级语言理解模型更加普及化。
Feb, 2024
本文比较现有多语言模型词汇表生成方法,提出了一种新的多语言词汇表生成方法。实验证明,该方法能够提高多个语言上的推理性能,同时在不增加模型大小或数据的情况下,将语言识别率降低了 8 倍。
Oct, 2020