跨语种语义相似匹配的多阶段蒸馏框架
本文提出了一种新的语言表示学习的知识蒸馏方法,通过单词关系和层变换关系传递上下文知识,无需限制教师和学生的架构变化,验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。
Sep, 2021
使用多阶段知识蒸馏训练的DR.DECR是一种新的跨语言信息检索(CLIR)系统,其学习了强大的多语言表示以及简化的CLIR,具有比使用有标记的CLIR数据进行直接微调更高的准确性。
Dec, 2021
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD在XNLI和XQuAD上表现更好,在PAWS-X上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
本研究探讨了一种Knowledge Distillation的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能,同时在Plagiarism Detection方面也有了更好的表现。
Jan, 2023
该研究提出了一种名为Translate-Distill的方法,它利用交叉编码器或CLIR交叉编码器的知识蒸馏来训练双编码器CLIR学生模型。
Jan, 2024
使用Translate-Distill框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而,Translate-Distill仅支持单一语言。本研究扩展Translate-Distill并提出了用于多语言信息检索 (MLIR) 的多语言Translate-Distill (MTD) 方法。我们通过nDCG@20指标和MAP指标在性能上展示了使用MTD培训的ColBERT-X模型优于以前的最先进训练方法Multilingual Translate-Train,其在nDCG@20上提高了5%到25%,在MAP上提高了15%到45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在GitHub上找到。
May, 2024
通过提出双空间知识蒸馏 (DSKD) 框架,我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题,并进一步开发了跨模型注意力机制,支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明,DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架,并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。
Jun, 2024
这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查,将方法分为白盒知识蒸馏和黑盒知识蒸馏,并探讨了不同蒸馏方法之间的评估任务和蒸馏效果,并提出了未来研究的方向。通过深入了解最新进展和实际应用,这篇综述为研究人员提供了有价值的资源,为这一领域的持续进展铺平了道路。
Jul, 2024