语言模型压缩中的语言上下文提取
本文提出一种编码方法,用于从高维词嵌入中提取特定任务的知识,旨在解决在各种资源受限系统中高性能的轻量级神经网络的需求问题。实验结果表明,从笨重的嵌入中提取知识优于使用小型嵌入直接训练神经网络,能保证高准确性的同时大幅减少模型复杂度。
Jun, 2015
本文通过使用混合词汇训练来对齐师生嵌入,提出了一种压缩BERT-LARGE的知识蒸馏方法,使其成为一个具有更小词汇表和隐藏维数的无任务模型,这个模型的经验结果表明它比其他压缩BERT模型在语言理解基准和实际对话任务中具有更好的性价比。
Sep, 2019
本研究聚焦于多语言实体识别,探究知识蒸馏压缩预训练语言模型的多种策略,通过利用教师模型内部表示的分阶段优化方案,成功将MBERT模型压缩了35倍参数,51倍批量推理的延迟,同时保持在41种语言中的95%的F1分数。
Apr, 2020
本文讲述了如何通过自动生成语义不同但结果相似的句子组集来学习一种转换,以去除词法语义但保留结构信息,并证明这种方法在结构聚类方面的效果优于词汇语义聚类方法,最终在少样本解析任务中优于原始上下文化语言表示。
Oct, 2020
该研究论文介绍了知识蒸馏的不同方法,其中包括对词汇表的缩减,以助于通过两种简单而有效的对齐技术,对具有简化词汇表的学生进行知识蒸馏,并证明这些技术可以在保持一定质量的情况下实现17倍至49倍的压缩。
May, 2022
本研究提出一种名为TED的任务感知分层蒸馏方法,通过使用任务感知滤波器,选取有用于目标任务的知识来减小知识差距,从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务,在连续预训练和微调的两种情况下,TED都比现有的蒸馏方法表现出明显且一致的改进。
Oct, 2022
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD在XNLI和XQuAD上表现更好,在PAWS-X上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
本研究探讨了一种Knowledge Distillation的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能,同时在Plagiarism Detection方面也有了更好的表现。
Jan, 2023
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024