知识蒸馏传递诱导偏置
通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差,我们介绍了一种创新的蒸馏方法,以支持视觉转换和文本领域之间的统一信息处理,提高了学生性能,并减轻了计算负担和提高了效率。
Sep, 2023
该研究提出了一种新颖的基于蒸馏的方法,用于训练视觉 transformers,并取得了比先前同等架构的 transformers 更好的性能,该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer,从而实现不同的知识交汇和提升。
Jun, 2021
本文提出了一种基于演员 - 评论家方法的知识蒸馏框架,旨在从教师模型中选择适当的知识来训练学生模型,实验结果表明该方法在 GLUE 数据集上优于常规基线模型。
Feb, 2023
在本研究中,我们提出了一种将知识蒸馏应用于迁移学习的机器学习架构,称为 TL + KD,并对它与传统 TL 的图像分类效果进行了量化和定性比较。结果表明,在微调过程中,使用较大的教师网络提供指导和知识可以改善学生网络以实现更好的验证性能,同时研究了不同场景下的性能表现。
Oct, 2022
提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。 该方法通过偏差对齐目标来强制学习更通用的表示,从而减轻了深度神经网络中的一些缺点,如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案,对改善分类和鲁棒性之间的平衡起到了帮助的作用。
Jun, 2022
利用知识蒸馏提高学生模型对大型强子对撞机上轰击粒子分类任务的性能,并通过使用具有洛伦兹对称的强归纳偏差的教师模型,引入相同的归纳偏差以提高模型的鲁棒性
Nov, 2023
通过使用知识蒸馏技术,从大模型 (教师模型) 中提取信息,训练小模型 (学生模型) 可以解决将大型深度学习模型部署在移动设备和嵌入式设备上的问题。本文提出了一种基于蒸馏度量的比较不同知识蒸馏算法性能的新指标,并通过对知识蒸馏技术应用于深度学习模型进行调查,得出了一些有趣的结论。
Jul, 2020
本研究评估了知识蒸馏的有效性以及它对学生和教师体系的依赖性。发现较精确的教师并不一定是好教师,且大型模型并不总是更好的教师,这导致了容器不匹配的问题,本研究表明教师的训练中止可以缓解这种效应,这些结果适用于各种数据集和模型。
Oct, 2019
本论文提出了一种信息理论框架用于知识转移,将知识转移视为最大化教师和学生网络之间的互信息,将该方法应用于不同架构的网络间的知识转移,证明了其性能远超现有方法。
Apr, 2019