预训练模型细调的动态纠正自蒸馏
使用自我蒸馏微调(SDFT)方法,本研究通过引入由模型自身生成的蒸馏数据集来填补任务数据集与大型语言模型之间的分布差距,解决了在特定任务上微调时性能和通用指令跟随能力之间的挑战,并在多个基准测试中证明了 SDFT 方法在减轻灾难性遗忘的同时,在下游任务上实现了与传统微调相当或更优的性能,并且还展示了 SDFT 方法在保持 LLMs 的实用性和安全性之间的潜力。
Feb, 2024
为了在计算资源有限的环境下部署高级多模态技术,我们提出了一种从预训练多模态大模型中动态自适应多尺度蒸馏的方法,通过仅使用输出特征和原始图像级信息来优化模型,显著降低复杂性和训练成本,实现了跨模态检索任务的最先进性能。
Apr, 2024
我们提出了自我蒸馏 Fine-Tuning 扩散模型(SDFT),通过利用在大型源数据集上预训练的扩散模型的多样特征,从源模型中提取出更一般的特征(形状、颜色等),少量的领域特定特征(纹理、细节等),以在目标数据集上进行知识传递且不干扰训练过程,以引导有限数据集上扩散模型的生成能力,从而增强了模型的表达能力,并在各种下游任务中显示出更好的生成能力。
Nov, 2023
本文提出了自蒸馏(self-distillation)作为进一步预训练阶段的正则化方法来解决 Vision Transformer 模型在目标未标记数据上预训练的过拟合问题,最终在图像分类和文本分类任务中优于相关基线。
Sep, 2022
DisCo 使用知识蒸馏从一个大的 PLM 中生成小的学生模型,采用一种新颖的共训练技术来优化多个小学生模型,以促进它们的半监督学习效果,并在半监督文本分类和摘要提取任务中得到了比线性基准模型 7.6 倍更小和 4.8 倍更快的推理速度,同时保持可比的性能。
May, 2023
通过实验证明,多代自蒸馏能够在一定程度上提高模型的性能,之所以会出现这种情况,部分原因在于教学者预测的多样性。我们提出了一种新的教师 - 学员训练解释,即估计自适应正则化,这使得标签平滑的预测不确定性和预测多样性同样重要。我们还提出了一种新的实例特定标签平滑方法,并提供了实验证明其在许多情况下优于传统标签平滑方法。
Jun, 2020
本文研究知识蒸馏的动态方法是否能根据学生模型的能力,对三个方面进行调整,包括教师模型的采用,数据选择和蒸馏目标的调整,实验结果表明,动态知识蒸馏是有前途的,并提供了关于更有效 KD 方法的未来方向的讨论。
Sep, 2021
本研究提出了一种名为 DCD 的新型动态对比蒸馏框架,用于压缩大型 VLP 模型以改善跨模态图像文本检索(ITR)的效率和部署,其中涉及多模态对比学习、动态蒸馏等技术,实验证明在 MS-COCO 和 Flickr30K 基准上,将 DCD 策略应用于两种最先进的视觉语言预训练模型 VILT 和 METER 可加快推断至少 129 倍。
Jul, 2022