释放力量：多模态大型语言模型的竞争蒸馏

Nov, 2023

释放力量：多模态大型语言模型的竞争蒸馏

Unlock the Power: Competitive Distillation for Multi-Modal Large Language Models

Xinwei Li, Li Lin, Shuai Wang, Chen Qian

TL;DR提出了一种创新的 Competitive Multi-modal Distillation（CoMD）框架，捕捉学生模型和教师模型之间的双向反馈，并不断更新学生模型学到的多模态能力，研究结果表明，我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力，经过四次蒸馏后，7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型，在零样本设置下也优于其他强基线模型。

Abstract

Recently, multi-modal content generation has attracted lots of attention from researchers by investigating the utilization of visual instruction tuning based on large language models (LLMs). To enhance the performance and generalization ability of such LLMs, the practice of distilling

multi-modal content generation knowledge distillation competitive multi-modal distillation bidirectional feedback state-of-the-art model

发现论文，激发创造

MKD：一种预训练语言模型的多任务知识蒸馏方法

本文提出了一种基于多任务学习的知识蒸馏方法，用于训练轻量级的预训练模型，该方法适用于不同的教师模型体系结构，并且相较于传统上基于 LSTM 的方法，具有更好的语言表达能力和更快的推理速度。

Nov, 2019

基于预训练多模态大模型的动态自适应多尺度蒸馏，用于高效的跨模态表示学习

为了在计算资源有限的环境下部署高级多模态技术，我们提出了一种从预训练多模态大模型中动态自适应多尺度蒸馏的方法，通过仅使用输出特征和原始图像级信息来优化模型，显著降低复杂性和训练成本，实现了跨模态检索任务的最先进性能。

Apr, 2024

语言模型的质量改进和压缩的共训练与共蒸馏

知识蒸馏是一种通过将知识传递给较小的模型来压缩计算成本昂贵的预训练语言模型，从而实现在资源受限或实时环境中使用的方法。为了解决性能和推理速度同时提高的问题，我们提出了一种名为 Co-Training and Co-Distillation (CTCD) 的新框架。CTCD 框架能通过共训练两个模型并相互蒸馏知识来提高性能和推理速度。该框架通过两个重要发现成功实现了这一目标：1) 在共训练期间，将小模型的知识蒸馏给大模型可以提升大模型的性能；2) 大模型的性能提升进一步促进了小模型的性能。CTCD 框架表现出了潜力，它可以与现有技术（如架构设计或数据增强）相结合，取代单向的知识蒸馏方法，从而实现进一步的性能改进。详细的消融研究证明了 CTCD 的有效性，经 CTCD 蒸馏的小模型在 GLUE 基准测试中比原始的大模型显著提升了 1.66 个指标。

Nov, 2023

多语言语言模型预训练的语义知识多级蒸馏

本论文提出了一种新的多层次多语种知识蒸馏方法（MMKD），采用英语 BERT 中的丰富语义表征知识和师生框架来鼓励源 - 目标对之间的多个层次一致性和教师和学生模型之间的相关相似性，以提高预先训练的多语种语言模型的性能。在横跨语言的评价任务中进行了实验证明，相对其他基线模型，MMKD 在 XNLI 和 XQuAD 上表现更好，在 PAWS-X 上表现相当，并且在低资源语言上获得了显著的性能提升。

Nov, 2022

一个老师足矣？多个教师的预训练语言模型蒸馏

本文提出了一种多教师知识蒸馏框架 MT-BERT，可以从多个教师 PLMs 中训练高质量的学生模型，并在三个基准数据集上验证了其压缩 PLMs 的有效性。

Jun, 2021

MSD: 多模态理解中的显著性感知知识蒸馏

研究对知识蒸馏在多模态数据集上的应用，提出了一种多模态知识蒸馏框架 MSD，其中引入辅助损失项和基于显著度得分的加权方案以及基于权重学习的方法，实验结果表明 MSD 比 KD 在四个多模态数据集上表现更好。

Jan, 2021

学生大型语言模型是否能和老师一样表现出色？

深度学习模型、知识蒸馏、软标签、温度缩放和模型性能在知识蒸馏中的关键决定因素及其潜力。

Oct, 2023

大型语言模型的多阶段协作知识蒸馏

我们提出了一种多阶段协同知识蒸馏方法，用于稀缺标记数据的半监督序列预测任务，通过从提示的大型语言模型中蒸馏出的学生模型，在特定任务上能够更好地泛化，且在两个句法分析任务上表现出了优势。

Nov, 2023

MixKD：大规模语言模型高效蒸馏

提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD，大幅度降低了一些实践性问题的影响，提升了大规模语言模型的泛化能力，实现了比标准 KD 培训更好的性能表现，能用于低资源平台上的应用。

Nov, 2020

MergeDistill: 使用蒸馏方法合并预训练语言模型

本文提出了 MergeDistill 框架，通过知识蒸馏的方式合并预先训练的多语言模型，旨在快速训练出性能与甚至优于数量级更大的模型，同时强调教师模型的选择对学生模型性能的影响。

Jun, 2021