提炼归纳偏见:超越模型压缩的知识蒸馏
该研究提出了一种新颖的基于蒸馏的方法,用于训练视觉 transformers,并取得了比先前同等架构的 transformers 更好的性能,该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer,从而实现不同的知识交汇和提升。
Jun, 2021
该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果,以不同归纳偏差的模型(LSTMs vs. Transformers 和 CNNs vs. MLPs)为例,研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。
May, 2020
我们提出了一种 CNN 到 ViT 知识蒸馏框架,包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD),实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。
Oct, 2023
本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法,并且明确了影响该方法有效性的设计选择。通过全面的实验研究,我们在多种视觉数据集上获得了令人信服的结果,并实现了在 ImageNet 数据集上的 ResNet-50 模型的最新表现,其 top-1 准确率为 82.8%。
Jun, 2021
利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT,并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。
Apr, 2024
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
本文提出了一种基于细粒度流形知识蒸馏的方法,旨在减少以往视觉变换器的计算量,并在 ImageNet-1k 分类基准测试中实现了 76.5%的高水平准确性。
Jul, 2021
该研究提出了一种通用到特定蒸馏法 (G2SD),以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力,从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。
Feb, 2023
本文介绍了一种在线知识蒸馏框架,通过选择和交换可靠知识来协同学习基于卷积神经网络(CNN)和视觉变压器(ViT)的模型,以进行语义分割。经过大量实验验证,我们提出的框架在大幅领先于现有的在线蒸馏方法的同时,展示了 ViT 和 CNN 模型之间协同学习的有效性。
Jul, 2023