多层知识蒸馏用于文本领域中的外部分布检测
应用世界知识通过选择性生成大型语言模型并利用一致性基准不确定性校正方法来提高过分布检测性能,通过从每个图像提取视觉对象充分利用前述世界知识,充分实验证明本方法始终优于现有技术。
Oct, 2023
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
Jun, 2020
大规模视觉 - 语言模型的蒸馏是一个具有潜力的方向,本文研究了利用小型或中型数据集将大型视觉 - 语言模型的视觉表示转化为轻量级学生模型,提出了两个原则来增强学生模型在开放词汇分布下的泛化能力,并在开放词汇分布下的分类任务中取得了显著改进。
Jul, 2023
基于语言模型的知识蒸馏是提高语言模型的有效部署的关键。本文提出了 GOLD,一种任务无关的数据生成和知识蒸馏框架,通过迭代的超出分布引导的反馈机制来改善生成数据的泛化能力。我们在 10 个不同的分类和序列到序列任务的自然语言处理方面的广泛实验中验证了 GOLD 的优越性和对 less explored 和 novel 任务的适用性。
Mar, 2024
本文提出了一种双层蒸馏网络框架 OKDDip,其中包括多个辅助对等体和一个领导群体,辅助对等体通过注意力机制获取自己的预测目标,来作为组群内部的目标进行蒸馏学习,然后再将知识传递给领导群体,实现知识转移。实验结果表明,该框架在训练或推理复杂度上不会牺牲性能,相较于现有方法,可以提供更好的蒸馏效果。
Dec, 2019
Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.
Oct, 2023
本文将自我知识蒸馏应用到文本摘要中,通过引入教师模型生成平滑标签以帮助正则化训练,同时使用多个噪声信号来更好地模拟不确定性,实验结果显示该框架提高了预先训练和非预先训练摘要器的性能,并达到了最先进的结果。
Sep, 2020
本研究旨在通过将专家网络的特征进行 “蒸馏” 以学习无监督表示,并使用这些特征检测和定位异常区域,证明了结合多个中间提示的蒸馏方法能够更好地利用专家网络的知识,并显著提高在多个数据集上进行异常检测和定位的性能。
Nov, 2020
本文提出了一种基于单阶段在线知识蒸馏的自我监督学习法 Distill-on-the-Go (DoGo),采用深度互联策略,通过对齐两个模型的相似度得分的 softmax 概率来提供更好的表征质量,实验结果表明,该方法在存在噪声和有限标签以及区分数据方面具有显著性能提升和泛化能力
Apr, 2021