从CNN提炼高效的视觉Transformer用于语义分割
本文通过使用视觉Transformer在语义标记空间中密集地建模标记关系并减少卷积计算量,从而在ImageNet top-1和LIP,COCO-stuff图像分割测试上表现出了显着的优势。
Jun, 2020
本文提出 VL distillation,使用知识蒸馏方法将基于 transformer 的大型 VL 模型压缩成小型 VL 模型,以提高图像字幕生成和视觉问答任务中的性能。
Apr, 2021
该研究提出了Cumulative Spatial Knowledge Distillation (CSKD)方法,它能够在不引入中间特征的情况下,从相应的CNN空间响应中将空间上的知识传递到ViT的所有补丁令牌,并在训练过程中利用Cumulative Knowledge Fusion模块,以更好的利用CNN的局部归纳偏差,在ImageNet-1k和下游数据集上取得了优异的表现。
Jul, 2023
本文介绍了一种在线知识蒸馏框架,通过选择和交换可靠知识来协同学习基于卷积神经网络(CNN)和视觉变压器(ViT)的模型,以进行语义分割。经过大量实验验证,我们提出的框架在大幅领先于现有的在线蒸馏方法的同时,展示了ViT和CNN模型之间协同学习的有效性。
Jul, 2023
知识蒸馏可解决语义分割中的大型模型和慢速推理问题。研究中鉴定了14篇发表于近4年的25种蒸馏损失项。通过对2022年两篇论文的比较,揭示了超参数选择不当导致学生模型性能极端差异的问题。为了提高该领域的未来研究可比性,建立了三个数据集和两种学生模型的坚实基线,并提供了大量有关超参数调整的信息。在ADE20K数据集上,发现只有两种技术能与我们简单的基线相竞争。
Sep, 2023
通过引入基于分割模型的新型分词器策略,语义视觉转换器(sViT)在捕获显著特征和全局依赖关系的同时,提高了解释性和鲁棒性,相较于传统视觉转换器模型(ViT)在训练数据需求、分布泛化和解释性方面表现得更优。
Feb, 2024
该论文介绍了一种混合数据高效知识蒸馏 (Hybrid Data-efficient Knowledge Distillation, HDKD) 的范例,该范例通过使用卷积神经网络(CNN)教师和一个混合的学生,克服了既忽略中间特征的丰富语义信息又导致不匹配结构和增加计算开销的限制,并提出了一种高效的轻量级卷积块。广泛的实验显示了HDKD在两个医学公共数据集上的优越性以及其计算效率。
Jul, 2024
提出一种新的知识蒸馏方法,通过将标签噪声并结合到输入中来提高轻量级教师模型的性能,同时保持与标准蒸馏一致性训练学生模型,以提高知识蒸馏的效果并增加教师和学生模型的灵活性。
Jul, 2024
本研究解决了视觉变换器在部署于资源有限设备时面临的高计算需求和大量数据训练的挑战。创新性地提出无数据的知识蒸馏方法,通过压缩大型视觉变换器模型,显著提升了其在小型设备上的应用潜力。实验结果表明,该方法能够有效优化视觉变换器的性能,使其在有限资源下依然具备较高的应用效果。
Aug, 2024