跨语种语义相似匹配的多阶段蒸馏框架
本研究聚焦于多语言实体识别,探究知识蒸馏压缩预训练语言模型的多种策略,通过利用教师模型内部表示的分阶段优化方案,成功将 MBERT 模型压缩了 35 倍参数,51 倍批量推理的延迟,同时保持在 41 种语言中的 95%的 F1 分数。
Apr, 2020
本论文提出了一种新的多层次多语种知识蒸馏方法(MMKD),采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性,以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明,相对其他基线模型,MMKD 在 XNLI 和 XQuAD 上表现更好,在 PAWS-X 上表现相当,并且在低资源语言上获得了显著的性能提升。
Nov, 2022
本文提出了 MergeDistill 框架,通过知识蒸馏的方式合并预先训练的多语言模型,旨在快速训练出性能与甚至优于数量级更大的模型,同时强调教师模型的选择对学生模型性能的影响。
Jun, 2021
提出从大规模多语言 Transformer 中提取压缩的、语言特定的模型的方法,通过二阶段稀疏精调生成双语模型,从而在目标语言性能方面表现出最小的降级而且速度更快。
Jun, 2023
通过将 MT 编码器直接集成到 LLM 主干中,我们通过样本高效的自我蒸馏获得了 MT-LLM,从而将低资源语言与以英语为中心的 LLM 中嵌入的丰富知识相结合,实现了跨语言的多语言语言理解。
Jun, 2024
本研究提出了一个名为 Distill-L2S 的新方法,将一个已经训练好的跨语言语言模型转移到语音识别模型中,通过该方法在 20 种低资源语言中达到了优越性能。
Jun, 2022
本文介绍一种名为 “Distilling step-by-step” 的新机制,该机制通过在多任务训练框架内提取 LLM rationales 作为小型模型的附加监督来训练比 LLM 更小且表现更好的模型,并且使用远少于 finetuning 或 distillation 所需的标注数据。作者研究表明,相对于 finetuning 和 distillation,本机制使用更少的标注 / 非标注训练样例实现更好的性能;并且相对于 LLMs,使用明显更小的模型尺寸实现更好的性能;作者使用了 only 80% of available data on a benchmark task,就可以使用 770M T5 模型胜过 540B PaLM。
May, 2023
提出了一种创新的 Competitive Multi-modal Distillation(CoMD)框架,捕捉学生模型和教师模型之间的双向反馈,并不断更新学生模型学到的多模态能力,研究结果表明,我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力,经过四次蒸馏后,7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型,在零样本设置下也优于其他强基线模型。
Nov, 2023