DisCo: 基于蒸馏的学生模型联合训练用于半监督文本挖掘
本文提出了一种名为 Distilled Contrastive Learning (DisCo) 的方法,通过将主流自监督学习方法中蕴含的最有价值的信息提取出来,然后通过约束学生模型的最终嵌入与教师模型的嵌入保持一致,从而大幅缓解模型规模减小时的性能退化问题,实验结果表明,DisCo 在所有轻型模型上取得了最先进的性能,并且在部署过程中不会引入任何额外的参数。
Apr, 2021
知识蒸馏是一种通过将知识传递给较小的模型来压缩计算成本昂贵的预训练语言模型,从而实现在资源受限或实时环境中使用的方法。为了解决性能和推理速度同时提高的问题,我们提出了一种名为 Co-Training and Co-Distillation (CTCD) 的新框架。CTCD 框架能通过共训练两个模型并相互蒸馏知识来提高性能和推理速度。该框架通过两个重要发现成功实现了这一目标:1) 在共训练期间,将小模型的知识蒸馏给大模型可以提升大模型的性能;2) 大模型的性能提升进一步促进了小模型的性能。CTCD 框架表现出了潜力,它可以与现有技术(如架构设计或数据增强)相结合,取代单向的知识蒸馏方法,从而实现进一步的性能改进。详细的消融研究证明了 CTCD 的有效性,经 CTCD 蒸馏的小模型在 GLUE 基准测试中比原始的大模型显著提升了 1.66 个指标。
Nov, 2023
我们提出了一种多阶段协同知识蒸馏方法,用于稀缺标记数据的半监督序列预测任务,通过从提示的大型语言模型中蒸馏出的学生模型,在特定任务上能够更好地泛化,且在两个句法分析任务上表现出了优势。
Nov, 2023
本研究实现了一种多级知识蒸馏方法,将自监督学习与基于语言模型的强制学习相结合,以生成新颖的 OoD 检测方案,并在多个基准数据集上实现了最新的性能。
Nov, 2022
提出了一种创新的 Competitive Multi-modal Distillation(CoMD)框架,捕捉学生模型和教师模型之间的双向反馈,并不断更新学生模型学到的多模态能力,研究结果表明,我们的知识迁移方法在各种数据集上稳定提升了学生模型的能力,经过四次蒸馏后,7B 大小的学生模型在 ScienceQA 和 LLaVA Test 数据集上超过了当前最先进的 LLaVA-13B 模型,在零样本设置下也优于其他强基线模型。
Nov, 2023
通过训练一个语言模型生成信息丰富的合成训练样本作为文本数据,我们提出了一种新颖的文本数据集精炼方法,称为 Distilling dataset into Language Model (DiLM)。我们在各种文本分类数据集上评估了 DiLM,并展示了从 DiLM 中获得的合成数据集胜过当前核心集选择方法的结果。DiLM 在训练不同类型的模型和大型语言模型的上下文学习中取得了显著的泛化性能。
Mar, 2024
我们提出了一种有效的动态纠正自蒸馏方法来改善预训练语言模型的微调过程,通过迭代的自我纠正过程显著增强了预训练语言模型的微调能力,并在各种下游任务中提高了性能和鲁棒性。
Dec, 2023
该研究提出了一种基于教师 - 学生框架和较大自适应度的 distilled collaboration graph 和网络,使多代理协作感知的性能 - 带宽折衷达到一个更好的平衡,并且实验结果证明其在 3D 物体检测中表现更好。
Nov, 2021
该论文提出了一种名为 DISCO 的新框架,可以使用大规模语言模型生成高质量的反事实数据,并借助特定于任务的老师模型过滤生成,以提高模型的稳健性和泛化性能。实验结果表明,使用这种方式进行学习,学生模型的鲁棒性和跨分布能力比基线提高了 6%(绝对)和 5%。
Dec, 2022
本文提出了一种新颖的基于知识蒸馏的模型压缩框架,在学生集成中启用了同时学习的知识蒸馏,并在压缩的学生模型上蒸馏同时学到的集成知识,该方法在不需要预训练权重的情况下同时训练了压缩学生和集成教师。该方法可以交付多个压缩的学生,并且使用我们的框架,可以以高效和灵活的方式适应不同场景。实验结果表明,使用我们的框架,一个压缩率达 97% 的 ResNet110 学生模型在 CIFAR100 数据集上相对精度提高了 10.64%,类似地,一个压缩率达 95%的 DenseNet-BC (k = 12)模型相对精度提高了 8.17%。
Nov, 2020