从CNN提炼高效的视觉Transformer用于语义分割

Oct, 2023

从CNN提炼高效的视觉Transformer用于语义分割

Distilling Efficient Vision Transformers from CNNs for Semantic Segmentation

Xu Zheng, Yunhao Luo, Pengyuan Zhou, Lin Wang

TL;DR我们提出了一种CNN到ViT知识蒸馏框架，包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD)，实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。

Abstract

In this paper, we tackle a new problem: how to transfer knowledge from the pre-trained cumbersome yet well-performed cnn-based model to learn a compact vision transformer (ViT)-based model while maintaining its l

发现论文，激发创造

视觉Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉Transformer在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在ImageNet top-1和LIP，COCO-stuff图像分割测试上表现出了显着的优势。

Jun, 2020

通道级知识蒸馏用于密集预测

利用KL散度和频道-wise蒸馏进行语义分割，以更小的计算成本，优于目前所有已知的空间蒸馏方法，可视为有效的知识提取方法。

Nov, 2020

知识蒸馏的视觉语言模型压缩

本文提出 VL distillation，使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型，以提高图像字幕生成和视觉问答任务中的性能。

Apr, 2021

累积空间知识蒸馏用于视觉Transformers

该研究提出了Cumulative Spatial Knowledge Distillation (CSKD)方法，它能够在不引入中间特征的情况下，从相应的CNN空间响应中将空间上的知识传递到ViT的所有补丁令牌，并在训练过程中利用Cumulative Knowledge Fusion模块，以更好的利用CNN的局部归纳偏差，在ImageNet-1k和下游数据集上取得了优异的表现。

Jul, 2023

优秀的学生具备合作和可靠性：CNN-Transformer 语义分割的协同学习

本文介绍了一种在线知识蒸馏框架，通过选择和交换可靠知识来协同学习基于卷积神经网络（CNN）和视觉变压器（ViT）的模型，以进行语义分割。经过大量实验验证，我们提出的框架在大幅领先于现有的在线蒸馏方法的同时，展示了ViT和CNN模型之间协同学习的有效性。

Jul, 2023

走向语义图像分割中的可比较知识蒸馏

知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了14篇发表于近4年的25种蒸馏损失项。通过对2022年两篇论文的比较，揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性，建立了三个数据集和两种学生模型的坚实基线，并提供了大量有关超参数调整的信息。在ADE20K数据集上，发现只有两种技术能与我们简单的基线相竞争。

Sep, 2023

自然语言语义下的视觉Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

HDKD: 医学图像分类的混合数据高效知识蒸馏网络

该论文介绍了一种混合数据高效知识蒸馏 (Hybrid Data-efficient Knowledge Distillation, HDKD) 的范例，该范例通过使用卷积神经网络（CNN）教师和一个混合的学生，克服了既忽略中间特征的丰富语义信息又导致不匹配结构和增加计算开销的限制，并提出了一种高效的轻量级卷积块。广泛的实验显示了HDKD在两个医学公共数据集上的优越性以及其计算效率。

Jul, 2024

标签辅助下的强化教师：一种用于语义分割的新型知识蒸馏方法

提出一种新的知识蒸馏方法，通过将标签噪声并结合到输入中来提高轻量级教师模型的性能，同时保持与标准蒸馏一致性训练学生模型，以提高知识蒸馏的效果并增加教师和学生模型的灵活性。

Jul, 2024

利用无数据知识迁移优化视觉变换器

本研究解决了视觉变换器在部署于资源有限设备时面临的高计算需求和大量数据训练的挑战。创新性地提出无数据的知识蒸馏方法，通过压缩大型视觉变换器模型，显著提升了其在小型设备上的应用潜力。实验结果表明，该方法能够有效优化视觉变换器的性能，使其在有限资源下依然具备较高的应用效果。

Aug, 2024