- 大型语言模型的直接偏好知识蒸馏
在大型语言模型领域,我们提出了 Direct Preference Knowledge Distillation (DPKD) 方法,通过利用分布差异来表示偏好损失和隐式奖励函数,将语言模型知识蒸馏分为两个阶段,并通过实验证明了其广泛适用性 - 对比式知识融合用于无监督图像分类
知识融合旨在学习一个紧凑的学生模型,以处理多个针对各自任务的教师模型的联合目标。我们提出了一种新颖的对比知识融合(CKA)框架,通过引入对比损失和对齐损失来实现类内凝聚和类间分离,以使学生能够学习多个异构教师自任务的适当决策边界。
- 教 AI 教学:将有限的人类关注数据转化为基于注意力无限制的训练
利用 “teacher-student” 训练范式可以补充有限数量的人类提供的注释,使得在构建大型数据集时可以生成任意数量的模型生成的图像注释,并且在四种模型架构和两种显著性估计方法中均表现出优异的性能。
- 知识蒸馏在部分方差降低方面发挥作用
本文揭示了知识蒸馏方法的内在机制,对应于一种新型的随机方差缩减机制。通过在线性模型和深度线性模型的背景下实现这一方法,表明知识蒸馏可以降低随机梯度噪声,从而减少模型复杂度,但是需要进行参数化的调整。
- 基于 n-best 重排序的精准知识蒸馏
在 WMT21 德英翻译任务上,我们提出了一种通过 n-best 重新排序来扩展顺序级知识蒸馏的方法,以考虑不仅仅是第一顶假设,而且还要考虑教师模型的前 n 个顶假设,利用一组多样化的模型,包括公开可用的大型预训练模型,为训练学生模型提供更 - 面向端到端手语翻译的跨模态数据增强
提出一种名为交叉模态数据增强(XmDA)的框架,以通过从标记数据中利用伪 Gloss-Text 对实现从手语视频到文本的端到端手语翻译
- Avatar 知识蒸馏:自我集成教师模式与不确定性
本文提出一种新的知识蒸馏方法 ——Avatar Knowledge Distillation (AKD),通过生成因扰动转化而得的不同推理集合模型(Avatars)来协助学生模型更有效的学习,同时提出了一种基于推理模型差异的不确定性感知因素 - 自监督语音模型的集成知识蒸馏
本文提出了一种多自监督语音模型集成的方法,通过使用层次平均聚合不同教师模型的表示,并为学生模型提出了多重预测头方法,从而大大提高了四个下游语音处理任务的性能,并在 SUPERB 基准的隐藏集轨道中取得了显著的成果。
- 任务感知分层蒸馏:语言模型压缩的 “减法即增益
本研究提出一种名为 TED 的任务感知分层蒸馏方法,通过使用任务感知滤波器,选取有用于目标任务的知识来减小知识差距,从而在学生和教师之间减小知识差距并帮助学生更好地适应目标任务,在连续预训练和微调的两种情况下,TED 都比现有的蒸馏方法表现 - 统一而有效的集成知识蒸馏
本文提出了一种有效的集成知识蒸馏方法,该方法能够从多个教师模型学习未标记数据的知识,并据此训练单个学生模型。研究表明,通过考虑不同教师之间的预测差异以及样本难度,可以进一步提高蒸馏的效果。
- 针对迁移学习的模型倒置攻击:无需访问模型即可实现模型倒置
本文提出两种黑盒模型反演攻击方法,不需要查询学生模型,可以成功地从传统教师模型转移学习中的学生模型中恢复高度可识别的数据记录。
- 针对知识蒸馏的学生友好型教师网络学习
本文提出一种新颖的知识蒸馏方法,该方法旨在学习对学生友好的教师模型以实现知识传递,并在多个知识蒸馏技术中展示出卓越的准确性和收敛速度。
- AAAI强化多教师选择的知识蒸馏
本文研究了一种改进模型压缩方法,通过强化学习动态调整知识蒸馏中教师模型的权重,从而提高了学生模型性能,适用于自然语言处理任务。