利用无数据知识迁移优化视觉变换器
通过使用注意力机制的神经网络,我们以卷积神经网络为教师,在ImageNet上训练单个计算机下的优秀可比拟的转换器,并引入了基于蒸馏令牌的教师-学生策略,以获得竞争性结果。
Dec, 2020
本文提出了一种基于细粒度流形知识蒸馏的方法,旨在减少以往视觉变换器的计算量,并在ImageNet-1k分类基准测试中实现了76.5%的高水平准确性。
Jul, 2021
提出了一种名为As-ViT的自动缩放框架,用于设计和扩展Vision Transformers(ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需12小时的训练。
Feb, 2022
本文提出了一种早期知识蒸馏框架(DearKD),通过从卷积神经网络的早期中间层中提取归纳偏差然后通过无蒸馏进行训练,以提高变压器所需的数据效率。我们还针对极端的零数据情况提出了一种基于DeepInversion的边界保留内部分歧损失,从而进一步缩小与完整数据对照组之间的性能差距。针对ImageNet、partial ImageNet、无数据设置和其他下游任务的大量实验证明DearKD优于其基准和最先进的方法。
Apr, 2022
该研究提出了Cumulative Spatial Knowledge Distillation (CSKD)方法,它能够在不引入中间特征的情况下,从相应的CNN空间响应中将空间上的知识传递到ViT的所有补丁令牌,并在训练过程中利用Cumulative Knowledge Fusion模块,以更好的利用CNN的局部归纳偏差,在ImageNet-1k和下游数据集上取得了优异的表现。
Jul, 2023
我们提出了一种CNN到ViT知识蒸馏框架,包括视觉语言特征蒸馏模块(VLFD)和像素级解耦蒸馏模块(PDD),实验证明我们的方法在三个语义分割基准数据集上的mIoU增量是最先进知识蒸馏方法的200%以上。
Oct, 2023
本文提出了一种无需训练的视觉Transformer(ViT)架构搜索方法,通过使用教师模型,利用具有零成本代理的方式搜索更好的ViT,并在各种小型数据集和搜索空间上展开了大量实验,证明了该方法优于现有的无训练搜索方法。
Nov, 2023
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024