跨语种语义相似匹配的多阶段蒸馏框架

Sep, 2022

跨语种语义相似匹配的多阶段蒸馏框架

Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity Matching

Kunbo Ding, Weijie Liu, Yuejian Fang, Zhe Zhao, Qi Ju...

TL;DR本论文提出了一种多阶段蒸馏框架来构建小型但高性能的跨语言模型，同时结合对比学习、瓶颈和参数循环策略，解决了模型压缩过程中性能损失严重的问题，并证明该方法可以将XLM-R和MiniLM的大小压缩了50％以上，而性能仅降低了约1％。

Abstract

Previous studies have proved that cross-lingual knowledge distillation can significantly improve the performance of pre-trained models for cross-lingual →

发现论文，激发创造

语言模型压缩中的语言上下文提取

本文提出了一种新的语言表示学习的知识蒸馏方法，通过单词关系和层变换关系传递上下文知识，无需限制教师和学生的架构变化，验证了该方法在语言理解任务的各种架构和DynaBERT等自适应尺寸剪枝方法的挑战性基准上的有效性。

Sep, 2021

从英语Retriever学习跨语言IR

使用多阶段知识蒸馏训练的DR.DECR是一种新的跨语言信息检索(CLIR)系统，其学习了强大的多语言表示以及简化的CLIR，具有比使用有标记的CLIR数据进行直接微调更高的准确性。

Dec, 2021

对比学习的多语言表征蒸馏

该研究加入对比学习以蒸馏多语言表示，并用于平行语句的质量估计。实验证明，该方法在不同的资源稀少语言上显著优于先前的句子编码器，诸如LASER等。

Oct, 2022

多语言语言模型预训练的语义知识多级蒸馏

本论文提出了一种新的多层次多语种知识蒸馏方法（MMKD），采用英语BERT中的丰富语义表征知识和师生框架来鼓励源-目标对之间的多个层次一致性和教师和学生模型之间的相关相似性，以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明，相对其他基线模型，MMKD在XNLI和XQuAD上表现更好，在PAWS-X上表现相当，并且在低资源语言上获得了显著的性能提升。

Nov, 2022

神经语言模型的一致性蒸馏架构

本研究探讨了一种Knowledge Distillation的新方法，即从神经网络和词汇知识库中提取语言信息，以提供大规模模型的高效替代方案，并提出了两种基于多个teacher networks预测权重的技术以及一种用于词义消歧的方法，并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务(NLU)的性能，同时在Plagiarism Detection方面也有了更好的表现。

Jan, 2023

跨语言时序知识图谱推理的相互匹配知识蒸馏

该研究探讨了跨语言时间知识图谱推理问题，并提出了相应的相互加速的知识蒸馏模型，用于解决在低资源语言下推理性能不佳的问题。

Mar, 2023

Translate-Distill：通过翻译和蒸馏学习跨语言稠密检索

该研究提出了一种名为Translate-Distill的方法，它利用交叉编码器或CLIR交叉编码器的知识蒸馏来训练双编码器CLIR学生模型。

Jan, 2024

多语言信息检索的蒸馏

使用Translate-Distill框架进行跨语言信息检索 (CLIR) 已经显示出其通过翻译和塑造训练跨语言神经双重编码器模型的好处。然而，Translate-Distill仅支持单一语言。本研究扩展Translate-Distill并提出了用于多语言信息检索 (MLIR) 的多语言Translate-Distill (MTD) 方法。我们通过nDCG@20指标和MAP指标在性能上展示了使用MTD培训的ColBERT-X模型优于以前的最先进训练方法Multilingual Translate-Train，其在nDCG@20上提高了5%到25%，在MAP上提高了15%到45%。我们还展示了该模型对于训练批次中语言混合方式的鲁棒性。我们的实现可在GitHub上找到。

May, 2024

大型语言模型的双空间知识蒸馏

通过提出双空间知识蒸馏 (DSKD) 框架，我们解决了当前白盒知识蒸馏框架中不同模型之间输出空间差异导致的问题，并进一步开发了跨模型注意力机制，支持具有不同词汇的任意两个大语言模型之间的知识蒸馏。实验证明，DSKD在各种距离函数下显著优于当前白盒知识蒸馏框架，并且超过了现有的具有不同词汇的大语言模型的其他知识蒸馏方法。

Jun, 2024

大型语言模型的知识蒸馏综述：方法、评估与应用

这篇论文通过从方法、评估和应用三个方面对专门针对大型语言模型的知识蒸馏技术进行了全面调查，将方法分为白盒知识蒸馏和黑盒知识蒸馏，并探讨了不同蒸馏方法之间的评估任务和蒸馏效果，并提出了未来研究的方向。通过深入了解最新进展和实际应用，这篇综述为研究人员提供了有价值的资源，为这一领域的持续进展铺平了道路。

Jul, 2024