中间层蒸馏在压缩语言模型中的再次探讨:过拟合的角度
本文提出了一种名为 MiniLLM 的方法,该方法利用 Kullback-Leibler 散度,会防止学生模型过度估计教师分布的低概率区域,实现了从生成式语言模型中提取出更小的语言模型,该方法在指令遵循情况下进行了广泛的实验,证明了 MiniLLM 模型的性能表现更佳。
Jun, 2023
提出了一种利用 Mixup 数据扩充技术的数据不可知蒸馏框架 MixKD,大幅度降低了一些实践性问题的影响,提升了大规模语言模型的泛化能力,实现了比标准 KD 培训更好的性能表现,能用于低资源平台上的应用。
Nov, 2020
本文提出了一种基于对比学习的知识蒸馏数据增广技术 CILDA,该技术以中间层特征匹配为基础,使用对比损失来提高蒸馏样本的质量,并在 GLUE 基准测试以及域外评估中全面超越了现有的最先进的知识蒸馏方法。
Apr, 2022
DistiLLM 是一种更有效和高效的知识蒸馏框架,适用于自回归语言模型,通过引入倾斜的 Kullback-Leibler 散度损失和自适应的离策略方法,构建高性能的学生模型,并相较于最近的知识蒸馏方法获得最高 4.3 倍的加速比。
Feb, 2024
针对 transformer-based pre-trained language models 在实际应用中过大且延迟高的问题,该研究提出一种基于 knowledge distillation 的压缩方法,并通过系统实验对比分析知识类型、匹配策略、模型大小等多方面,最终提供一套最佳实践指南。
Jun, 2022
通过分析发现大型语言模型在教学学生模型时会导致性能下降,设计了一种自适应教学方法(ATKD)来改进知识蒸馏,并通过大量实验验证其在各种模型类型和规模上均能显著提高性能(平均得分增加至多 + 3.04%)。更重要的是,ATKD 能有效改善学生模型的泛化能力。
Feb, 2024
为了使模型更加易用,我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD,通过最大化教师模型和学生模型的最终表示之间的互信息,并减少学生模型表示和输入数据之间的互信息,以保留重要的学习信息并避免过拟合的风险,从而有效地在文本表示和下游任务中应用。
Nov, 2023
本研究探讨了一种 Knowledge Distillation 的新方法,即从神经网络和词汇知识库中提取语言信息,以提供大规模模型的高效替代方案,并提出了两种基于多个 teacher networks 预测权重的技术以及一种用于词义消歧的方法,并发现使用本文中的词汇预训练方法可在不增加参数的情况下提高自然语言理解任务 (NLU) 的性能,同时在 Plagiarism Detection 方面也有了更好的表现。
Jan, 2023
该研究提出了一种通用语言模型压缩方法(GLMD),该方法通过执行两个阶段的词汇预测压缩和词汇量压缩来消除模型之间的维度和结构约束,同时不需要标记数据集,并在 SuperGLUE 基准上超过最佳方法的平均得分 3%。
Jun, 2023