使用双向编码器视觉变换器进行领域泛化
本文研究了视觉 Transformer 在领域适应和领域泛化方案中的应用,包括特征级、实例级、模型级以及混合方法的适应,以及多领域学习、元学习、正则化技术和数据增强策略的领域泛化方法,总结了各种与分布变化相关的策略,并提供了有价值的洞见和综合表格,展示了视觉 Transformer 在处理分布变化方面的多样性和实用性。
Apr, 2024
本文探讨使用自我蒸馏方法解决视觉 Transformer 在领域泛化问题上的过拟合问题,并在五个具有挑战性的数据集上实现了显著的性能提升,同时表现出了对最新领域泛化方法的优异性。
Jul, 2022
本文系统研究了 Vision Transformers 在分布偏移情况下的泛化问题,发现其在背景和纹理上学习的偏差较弱,而对形状和结构的归纳偏差较强,因此在分布偏移情况下,相对于卷积神经网络,具有更好的泛化性能,且使用相同数量的参数,其在大多数类型的分布偏移下,比相应的 CNN 模型高出 5% 以上的准确度。此外,作者还进一步提出了增强泛化性能的 GE-ViTs,其对超参数的敏感度高于相应的 CNN 模型,因此设计了更平滑的学习策略以优化 GE-ViTs 的性能。
Jun, 2021
我们提出了一种使用视觉变换器 (ViT) 对转换图像进行模型微调的新方法,该转换图像域自适应方法不会导致模型准确度下降,基于 ViT 的嵌入结构进行实施,实验证实了该方法在使用 CIFAR-10 和 CIFAR-100 数据集的加密图像时仍能防止准确度下降。
Sep, 2023
该研究以无监督域自适应为主题,探索了如何利用关键元素来强化 Vision Transformers 在无源目标适应中的性能,通过引入域表示图像(DRIs)作为关键组件,提高了 Transformer 在领域泛化中的效率。
Nov, 2023
该研究旨在将训练在不同任务或领域的多个 Vision Transformers (ViTs) 合并成一个统一的模型,以保持每个任务或领域的良好性能,通过提出一种简单而有效的门控网络和模型权重相似性度量方法实现整体 ViT 模型的合并和性能提升。
Dec, 2023
本文介绍了通用的多模态基础模型 BEiT-3,通过三个方面的改进:骨干架构、预训练任务和模型扩展,实现了在视觉和视觉语言任务上的最先进转移性能。
Aug, 2022
提出了一种称为 VL-BEiT 的视觉语言基础模型,使用生成预训练学习的双向多模态 Transformer。该模型能够对单模态和多模态数据进行掩码预测。实验结果表明,VL-BEiT 在各种视觉语言基准测试中能够获得强大的结果,并学习到可转移的视觉特征,实现了在图像分类和语义分割上有着竞争性的表现。
Jun, 2022
提出了一种用于视觉变换器(ViT)的隐私保护深度神经网络(DNN)的新方法,该方法允许我们不仅训练模型和使用视觉受保护的图像进行测试,而且还能避免使用加密图像导致的性能下降,而传统方法无法避免图像加密的影响。通过领域适应方法,高效地对使用加密图像的 ViT 进行微调。实验证明,该方法在 CIFAR-10 和 ImageNet 数据集的图像分类任务中,在分类准确度方面优于传统方法。
Jan, 2024
本研究提出了一种基于视觉 - 语言模型的视觉语义分割方法,通过在源领域进行训练并在未见目标领域进行评估,提高了领域通用性。实验证明,该方法在域通用分割中的性能优于传统的视觉训练方法,取得了 7.6% mIoU 的提升。同时,在主流数据集上取得了 76.48% mIoU 的性能,超过了此前最优方法 6.9% mIoU 的水平。还表明该方法在领域内具有强大的泛化能力,并在当前排行榜上与最优方法并列第一。
Dec, 2023