DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

CVPRApr, 2024

DeiT-LT 蒸馏对长尾数据集的视觉 Transformer 训练再次起效

DeiT-LT Distillation Strikes Back for Vision Transformer Training on Long-Tailed Datasets

Harsh Rangwani, Pradipto Mondal, Mayank Mishra, Ashish Ramayee Asokan, R. Venkatesh Babu

TL;DR利用 DeiT-LT 方案能够在长尾数据集上从头开始训练 ViT，并使用蒸馏 DIST 令牌通过在 ViT 架构中使用不同的令牌来学习对应于多数和少数类的特征。

Abstract

vision transformer (vit) has emerged as a prominent architecture for various computer vision tasks. In vit, we divide the input image into

vision transformer vit deit-lt long-tailed datasets distillation

发现论文，激发创造

从 CNN 提炼高效的视觉 Transformer 用于语义分割

我们提出了一种 CNN 到 ViT 知识蒸馏框架，包括视觉语言特征蒸馏模块 (VLFD) 和像素级解耦蒸馏模块 (PDD)，实验证明我们的方法在三个语义分割基准数据集上的 mIoU 增量是最先进知识蒸馏方法的 200% 以上。

Oct, 2023

ViT 特征知识蒸馏的实用指南

本文研究 Vision Transformer 的特征蒸馏方法，并提出 ViTKD 可以使基于 ImageNet 数据集的学生模型的准确率分别提升 1.64％、1.4％和 1.7％。

Sep, 2022

提炼归纳偏见：超越模型压缩的知识蒸馏

通过集成式蒸馏方法从轻量级教师模型中蒸馏归纳偏差，我们介绍了一种创新的蒸馏方法，以支持视觉转换和文本领域之间的统一信息处理，提高了学生性能，并减轻了计算负担和提高了效率。

Sep, 2023

自主学习视觉 Transformer 用于领域泛化

本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题，并在五个具有挑战性的数据集上实现了显著的性能提升，同时表现出了对最新领域泛化方法的优异性。

Jul, 2022

HDKD: 医学图像分类的混合数据高效知识蒸馏网络

该论文介绍了一种混合数据高效知识蒸馏 (Hybrid Data-efficient Knowledge Distillation, HDKD) 的范例，该范例通过使用卷积神经网络（CNN）教师和一个混合的学生，克服了既忽略中间特征的丰富语义信息又导致不匹配结构和增加计算开销的限制，并提出了一种高效的轻量级卷积块。广泛的实验显示了 HDKD 在两个医学公共数据集上的优越性以及其计算效率。

Jul, 2024

通过细粒度流形蒸馏学习高效视觉 Transformer

本文提出了一种基于细粒度流形知识蒸馏的方法，旨在减少以往视觉变换器的计算量，并在 ImageNet-1k 分类基准测试中实现了 76.5％的高水平准确性。

Jul, 2021

使用视觉 Transformer 学习不平衡数据

该论文介绍了一种名为 LiVT 的模型，使用 Long-Tailed 数据进行训练，其中使用了 Masked Generative Pretraining (MGP) 和 Balanced Binary Cross Entropy (Bal-BCE) 来优化模型性能，结果表明该模型在 iNaturalist 2018 上的 Top-1 准确率可达 81.0%。

Dec, 2022

将卷积结构融入视觉 Transformer

本论文提出了一种结合卷积神经网络和 Transformer 的新型算法 Convolution-enhanced image Transformer (CeiT)，在 ImageNet 和七个下游任务中实现了与先前 Transformer 和目前最先进的卷积神经网络相当的效果，而无需大量训练数据和额外的卷积神经网络教师，同时具有更好的收敛性和更低的训练成本。

Mar, 2021

TVT: 在小数据集上无需训练的视觉 Transformer 搜索

本文提出了一种无需训练的视觉 Transformer（ViT）架构搜索方法，通过使用教师模型，利用具有零成本代理的方式搜索更好的 ViT，并在各种小型数据集和搜索空间上展开了大量实验，证明了该方法优于现有的无训练搜索方法。

Nov, 2023

TinyViT：小型视觉 Transformer 的快速预训练蒸馏

TinyViT 是一种新型的、基于快速蒸馏框架的小型视觉 Transformer，通过使用蒸馏预训练模型的知识迁移以及对计算和参数进行限制，能够在减少参数数量的情况下依然具有较高的准确性，并且能够在多种下游任务中得到很好的转移效果。

Jul, 2022