提炼归纳偏见：超越模型压缩的知识蒸馏

Sep, 2023

提炼归纳偏见：超越模型压缩的知识蒸馏

Distilling Inductive Bias: Knowledge Distillation Beyond Model Compression

Gousia Habib, Tausifa Jan Saleem, Brejesh Lall

TL;DR通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Abstract

With the rapid development of computer vision, vision transformers (ViTs) offer the tantalizing prospect of unified information processing across visual and textual domains. But due to the lack of inherent

computer vision vision transformers distillation approach inductive biases ensemble-based distillation

发现论文，激发创造

共同指导：跨归纳偏差蒸馏

该研究提出了一种新颖的基于蒸馏的方法，用于训练视觉 transformers，并取得了比先前同等架构的 transformers 更好的性能，该方法的关键是使用具有不同归纳偏差的轻量级 teachers 来共同指导 student transformer，从而实现不同的知识交汇和提升。

Jun, 2021

知识蒸馏传递诱导偏置

该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果，以不同归纳偏差的模型（LSTMs vs. Transformers 和 CNNs vs. MLPs）为例，研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。

May, 2020

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

知识蒸馏：好老师耐心且一致

本文介绍了一种用于减小大规模计算机视觉模型尺寸、同时不影响性能的知识蒸馏方法，并且明确了影响该方法有效性的设计选择。通过全面的实验研究，我们在多种视觉数据集上获得了令人信服的结果，并实现了在 ImageNet 数据集上的 ResNet-50 模型的最新表现，其 top-1 准确率为 82.8％。

Jun, 2021

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT，并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。

Apr, 2024

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

通过细粒度流形蒸馏学习高效视觉 Transformer

本文提出了一种基于细粒度流形知识蒸馏的方法，旨在减少以往视觉变换器的计算量，并在 ImageNet-1k 分类基准测试中实现了 76.5％的高水平准确性。

Jul, 2021

知识蒸馏：综述

该论文从知识分类、训练方案、教师 - 学生架构、蒸馏算法、性能比较和应用等方面全面调查了知识蒸馏。并简要回顾了知识蒸馏中的挑战，并探讨了未来的研究方向。

Jun, 2020

基于学生 - 教师模型的去泛化自编码器知识蒸馏

该研究提出了一种通用到特定蒸馏法 (G2SD)，以在受掩膜自编码器预训练的大型模型的监督下激发小型 ViT 模型的潜力，从而在图像分类、目标检测和语义分割任务上设置了坚实的基线。

Feb, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了 ViT 和 CNN 模型之间协同学习的有效性。

Jul, 2023