- 教师的多或少:利用三边几何进行知识蒸馏
本研究引入了一种新颖的自适应方法,通过利用教师和学生的正确性以及学生在每个样本上模仿教师的程度,从而在每个样本上学习一个自适应的、逐个样本的知识融合比率,进而实现了知识蒸馏的简单、实用和可调整的解决方案。
- 广告竞价中基于点击率预测的成对排名损失函数优化福利最大化
研究如何设计损失函数来优化广告拍卖中的(社会)福利,提出了一种新的加权排名损失来训练点击率模型,并通过在使用教师网络产生的标签上进行损失校准来证明其优越性。
- 教师网络校准改善跨质量知识蒸馏
本文研究交叉质量知识蒸馏(CQKD),该方法将使用全分辨率图像进行训练的教师网络的知识转移到以低分辨率图像作为输入的学生网络中。CQKD 在大规模图像分类问题上的表现优于监督学习,并强调了神经网络校准的重要性:我们表明,通过更高的温度平滑教 - 从未调校的教师中抽取定性的学生
本文提出一种方法,在通过知识蒸馏传递信息来从教师网络中提高浅层学生网络性能的同时,生成一个校准的学生模型,该方法依赖于数据增强技术的融合并扩展了传统知识蒸馏,因此可用于关系知识蒸馏和对比表示蒸馏,并在 CIFAR-10,CIFAR-100, - 授课老师在蒸馏中的偏差:违抗是否值得?
通过一系列的实验,我们发现知识蒸馏 (distillation) 在教师网络存在低置信度的点的时候,会使得学生网络的置信度更低,而之后引入知识蒸馏 (loss) 会恢复部分性能,同时我们提供了两种理论视角来理解这种现象,作为特征空间的正则化 - 利用神经网络中的反向传播知识改进知识蒸馏
该论文提出了一种新的知识蒸馏方法,通过在教师模型与学生模型差异较大的地方提取知识,在生成新的辅助样本的过程中改善学生模型的性能,从而使教师模型与学生模型更加匹配。这种方法在自然语言处理和计算机视觉等领域得到了良好的实验结果。
- SoTeacher: 面向学生的教师网络训练框架用于知识蒸馏
提出一种基于学生的教师网络训练框架 SoTeacher,通过引入 Lipschitz 正则化和一致性正则化改善知识蒸馏算法中教师网络的训练方法,实验证明该方法适用于几乎所有的教师 - 学生架构对,并且可以显著、一致地提高学生的性能。
- ORC: 基于网络组的知识蒸馏,使用在线角色转换
通过在线角色转换策略,将多个教师网络分为教师组和学生组,并通过训练教师组并将教师组的知识转移到学生组,以提高多个教师网络的知识蒸馏效果。在 CIFAR-10 和 CIFAR-100 等数据集中,该方法取得了高效的性能,而且适用于不同的背景架 - ACLBERT 学会教学:元学习的知识蒸馏
本研究提出了用元学习结合知识蒸馏的方法(MetaDistil),可以在固定教师网络期间更好地向学生网络转移知识。在多个实验基准上,MetaDistil 可以比传统的知识蒸馏算法产生更显著的改进,并且对不同的学生容量和超参数的选择不太敏感,有 - CVPR教师不仅仅教授:压缩图像到图像模型
通过引入教师网络,在搜索空间中查找高效的网络架构并进行知识蒸馏,该方法可以在更小的计算成本下实现类似于原始模型的图像质量,从而可能解决生成对抗网络的计算成本高的问题。
- ECCV知识蒸馏与自监督相遇
本文介绍了一种新的知识蒸馏方法,使用自我监督信号作为辅助任务来提取自预训练教师模型中的丰富知识,并将其成功地传递到学生网络中,从而实现了在各种基准测试下的表现优异。
- CVPR路标分割的区域间亲和度蒸馏
本文介绍了一种新的知识蒸馏方法 ——Inter-Region Affinity KD,该方法通过构建道路场景图并匹配教师模型的图来实现从大型教师网络向较小的学生网络进行知识迁移,从而在多种轻量级模型上取得了更好的性能表现,并在 Apollo - MM基于结构化知识迁移的高效众包计数
提出一种利用结构化知识传输框架的轻量级学生网络来有效解决高计算量和显存消耗,提升推断效率的方法。通过两个互补的传输模块,学生网络可以从教师网络中获取分层和跨层知识来学习紧凑而有效的特征。实验表明,该方法在减少计算成本的情况下仍能显著提高计算 - 元伪标签
Meta Pseudo Labels 是一种半监督学习方法,通过使用 teacher network 不断地改进 pseudo labels,进而精准地教授 student network,从而在 ImageNet 数据集上实现了 90.2 - 知识表示:用于知识蒸馏的高效、稀疏的先验知识表示
本文提出了一种以先验知识为主要建模对象的知识表示框架,并设计了一种稀疏重编码惩罚,以约束学生网络的学习,从而在知识蒸馏过程中避免过度正则化和更快地收敛。实验表明,该框架即使目标网络的表示能力不如期望,仍然实现了最先进的性能表现,并且灵活易于 - ICCV教师指导的架构搜索
使用表征相似性分析来评估待选网络内部激活与固定高性能教师网络的相似性可以提高搜索效率。结果表明,这种方法可以以比现有算法更低的计算成本发现相关于已知算法性能的卷积细胞结构,并且只需使用灵长类视觉系统中大约 300 个神经元的测量数据即可实现 - CVPR教师学生网络在视频分类中使用较少的帧数
本文主要介绍了利用蒸馏的思想来缩短视频分类问题的计算时间。通过建立师生网络,使得其中的学生网络只需要处理视频片段的一小部分,便能取得与完整视频相同水平的分类表现,从而使得在验证期推断时能够获得 30% 的时间节约。
- FitNets: 纤细深度神经网络的提示
本文提出了一种基于知识蒸馏的深度神经网络训练方法,通过使用教师网络的中间表示学习,允许训练比教师更深而且更窄的学生网络,并引入了额外参数来进行深浅网络之间的映射,以实现降低参数以提高运行速度或提升性能的目的。在 CIFAR-10 数据集上的