视觉 Transformer 的令牌 - 标签对齐
本文提出了一种名为 TokenMix 的数据增强技术,它在令牌级别上混合两个图像,通过将混合区域分区成多个独立的部分来实现,其适用于更好地训练视觉变换器,同时根据预训练的 teacher 模型的内容基础神经激活映射分配目标分数,增强了其稳健性和性能。
Jul, 2022
本文提出了标记令牌(Token labeling)—— 一种用于训练高性能视觉转换器(ViTs)的新训练目标。该方法可将图像分类问题重组成多个基于令牌级别的识别问题,并为每个补丁令牌分配由机器注释器生成的单独的位置特定监督。实验表明,标记令牌可以显著且一致地提高各种 ViT 模型在广泛光谱上的性能。
Apr, 2021
本文提出了一种名为 TransMix 的混合标签方法,基于 ViT 的注意力图混合标签,这种方法不需要引入额外的参数和 FLOP,并且在不同的基于 ImageNet 数据集的分类任务中都能够显著提高 ViT 的性能以及在语义分割,目标检测和实例分割上的迁移能力,同时在 4 种不同数据集的评估中也表现得更加稳健。
Nov, 2021
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
提出了一种新的数据增强方法 MixPro,结合了 MaskMix 和 Progressive Attention Labeling 技术,可以提高基于视觉变换器(ViT)的各种模型的性能,增强其鲁棒性和可迁移性。
Apr, 2023
Self-supervised Multi-modal Contrastive Learning (SMCL) 模型通过整合视觉和语言模态,使现代视觉 - 语言预训练(VLP)模型在无监督学习方面取得显著的进展。然而,由于网络采集的文本 - 图像对中存在噪声问题,在 SMCL 模型中增加训练数据量会带来相当大的计算成本和数据效率问题。为了提高 VLP 模型的数据效率,我们提出了 Text-aware Image Mixing(TiMix)方法,将基于混合的数据增强技术应用到 SMCL 模型中,能够在显著提升性能的同时,不会显著增加计算开销。我们从互信息(MI)的角度对 TiMix 进行了理论分析,表明混合的数据样本能够隐式地作为对比损失的正则化器。实验结果表明,与现有方法相比,即使减少了训练数据量并缩短了训练时间,TiMix 在下游任务上表现出了可比较的性能。该研究从实证和理论上证明了数据混合在数据高效和计算可行的 VLP 中的潜力,为 VLP 模型在实际场景中的广泛应用带来了好处。
Dec, 2023
通过 Resizable-ViT 模型和 Token-Length Assigner 方法,在保证准确性的前提下,为每个图像分配最小的适当的 token 长度,从而加快 ViT 模型的推理速度,从而显着降低计算成本。
Jul, 2023
通过对比图像输入,对每个文本标记的预测值差异提供了强大的视觉关联指导,我们提出了对每个文本标记赋予不同贡献的方法,名为 Contrastive ALignment (CAL)。我们的实验证明,CAL 方法在各种基准数据集上始终改善了不同类型的 VLM,并且与其他数据调整策略相比,我们的方法具有最小的额外计算开销。
May, 2024
提出了一种轻量级和高效的视觉变换模型 DualToken-ViT,它通过卷积和自注意结构有效地融合了局部信息和全局信息以实现高效的注意力结构,并使用位置感知的全局标记来丰富全局信息,并改进了图像的位置信息,通过在图像分类、物体检测和语义分割任务上进行广泛实验,展示了 DualToken-ViT 的有效性,其在 ImageNet-1K 数据集上取得了 75.4% 和 79.4% 的准确率,而在只有 0.5G 和 1.0G 的 FLOPs 下,我们的 1.0G FLOPs 的模型的性能超过了使用全局标记的 LightViT-T 模型 0.7%。
Sep, 2023
通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐,我们提出了 CG-VLM 模型,有效地实现了视觉 - 语言的对齐,成为一种高效的指令学习器。
Nov, 2023