XtremeDistil:大规模多语言模型的多阶段蒸馏
本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型,同时结合对比学习、瓶颈和参数循环策略,解决了模型压缩过程中性能损失严重的问题,并证明该方法可以将 XLM-R 和 MiniLM 的大小压缩了 50%以上,而性能仅降低了约 1%。
Sep, 2022
该研究论文针对知识蒸馏在自然语言处理中预训练模型所遇到的问题,探讨利用领域内未标记的数据、有限的已标记数据和基于简单 RNN 模型的硬蒸馏方法解决师生模型间性能差异的问题。实验结果表明,使用软蒸馏和利用教师模型的中间表示,学生模型的性能可以进一步提高,而在低资源环境下,学生模型在保证与教师模型性能基本持平的情况下,可实现最多 26 倍的压缩比,针对多语言环境的扩展实验结果更是惊人。
Oct, 2019
本文提出一种基于蒸馏的方法来提高多语言机器翻译的准确性,并在数据集上进行了实验,结果表明该方法可以通过训练单独的模型(即老师)来训练多语言模型,这使得一个模型即可具备处理多达 44 种不同语言的能力(且其准确性与单独模型相当甚至更优)。
Feb, 2019
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
本文通过目标蒸馏训练以培养能在广泛应用领域,如开放信息抽取中表现出色的学生模型,以命名实体识别为案例研究,展示了如何将 ChatGPT 蒸馏为更小的 UniversalNER 模型,通过在包括生物医学、编程、社交媒体、法律和金融等 9 个多样领域的 43 个数据集上评估,无需直接监督训练,UniversalNER 在成千上万个实体类型上取得了显著的 NER 准确性,平均 F1 值比 Alpaca 和 Vicuna 等通用指导调教模型高出 30 个百分点,仅使用极少参数,UniversalNER 不仅具备了 ChatGPT 识别任意实体类型的能力,还比平均 NER 准确性高出 7-9 个百分点,甚至在超越 InstructUIE 等最新多任务指导调教系统(使用监督 NER 样例)方面表现出色,同时进行了全面的消融研究以评估我们蒸馏方法中各组件的影响,以便促进未来针对目标蒸馏的研究。
Aug, 2023
本文提出了一种基于多任务学习的知识蒸馏方法,用于训练轻量级的预训练模型,该方法适用于不同的教师模型体系结构,并且相较于传统上基于 LSTM 的方法,具有更好的语言表达能力和更快的推理速度。
Nov, 2019
通过 generation-distillation 训练方法,利用大型 fine-tuned 语言模型生成无标签训练数据,通过知识蒸馏技术将这些数据的知识转移给小型网络,从而缩小了预先训练 LM 和小型特定任务模型之间的性能差距,实现了使用更少的参数(仅为 BERT 的 300 倍)达到与 BERT 可比的性能。
Jan, 2020
本文提出了一种任务不可知的知识蒸馏框架 ——XtremeDistilTransformers,利用任务特定方法学习出一个通用模型,可以应用于任意语言和任务,并研究了蒸馏过程中多个源任务、扩充资源和模型架构的可迁移性。在多项任务中验证了该模型的性能,并发布了三个蒸馏的任务不可知检查点,其中最小的检查点包含 1300 万个参数,实现了多项任务的 SOTA 表现。
Jun, 2021