共同指导:跨归纳偏差蒸馏
通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差,我们介绍了一种创新的蒸馏方法,以支持视觉转换和文本领域之间的统一信息处理,提高了学生性能,并减轻了计算负担和提高了效率。
Sep, 2023
该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果,以不同归纳偏差的模型(LSTMs vs. Transformers 和 CNNs vs. MLPs)为例,研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。
May, 2020
提出了 InBiaseD 来提取感知偏倚和为神经网络带来形状意识。 该方法通过偏差对齐目标来强制学习更通用的表示,从而减轻了深度神经网络中的一些缺点,如易受损的数据。 InBiaseD 通过无缝插入现有的对抗训练方案,对改善分类和鲁棒性之间的平衡起到了帮助的作用。
Jun, 2022
通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在 ImageNet 上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师 - 学生策略,以获得竞争性结果。
Dec, 2020
利用少样本的知识蒸馏方法来提取大规模预训练模型的知识,通过复制视觉变换器的权重并采用改进的低秩适应方法,将知识传输到学生模型中,并通过实证实验验证方法的优越性。
Apr, 2024
利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT,并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。
Apr, 2024
本文提出了一种早期知识蒸馏框架 (DearKD),通过从卷积神经网络的早期中间层中提取归纳偏差然后通过无蒸馏进行训练,以提高变压器所需的数据效率。我们还针对极端的零数据情况提出了一种基于 DeepInversion 的边界保留内部分歧损失,从而进一步缩小与完整数据对照组之间的性能差距。针对 ImageNet、partial ImageNet、无数据设置和其他下游任务的大量实验证明 DearKD 优于其基准和最先进的方法。
Apr, 2022
我们研究了在小数据集上训练视觉转换网络所面临的挑战,发现卷积神经网络可以通过利用其体系结构归纳偏差实现最先进的性能。我们探索了这种归纳偏差是否可以重新解释为视觉转换网络中的初始化偏差,并提出了一种新的初始化策略,可以在小数据集上实现与卷积神经网络相当的性能,同时保留其架构的灵活性。
Jan, 2024
我们提出了一种 CNN 到 ViT 知识蒸馏框架,包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD),实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。
Oct, 2023
本文介绍了一种在线知识蒸馏框架,通过选择和交换可靠知识来协同学习基于卷积神经网络(CNN)和视觉变压器(ViT)的模型,以进行语义分割。经过大量实验验证,我们提出的框架在大幅领先于现有的在线蒸馏方法的同时,展示了 ViT 和 CNN 模型之间协同学习的有效性。
Jul, 2023