使用语义有意义的标记理解视觉表示学习的效果

May, 2024

使用语义有意义的标记理解视觉表示学习的效果

Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning

Neha Kalibhat, Priyatham Kattakinda, Arman Zarei, Nikita Seleznev, Samuel Sharpe...

TL;DR在视觉 - 语言预训练框架中，通过提供语义上有意义的视觉标记给 transformer 编码器，本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制，并通过使用现成的分割和场景图模型，提取了实例分割掩码（称为有形标记）和关系动作（称为无形标记）的表示，从而在视觉 side 的 transformer 预训练中引入了这些新增的标记，并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明，在 COCO 数据集上，相比 ViTs，在文本到图像（+47%）和图像到文本（+44%）检索任务中学到了更好的表示质量，并且在组合性评估基准（如 ARO（+18%）和 Winoground（+10%））上展示了优势。

Abstract

vision transformers have established a precedent of patchifying images into uniformly-sized chunks before processing. We hypothesize that this design choice may limit models in learning comprehensive and compositional representations from visual data. This paper explores the notion of

vision transformers semantic visual tokens tangible tokens intangible tokens compositionality benchmarks

发现论文，激发创造

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

使用可学习记忆调优图像 Transformer

该研究提出使用可学习的记忆令牌来增强视觉 Transformer 模型，使其适应新任务，使用较少的参数，同时保留先前学习任务的能力。我们引入一组可学习的嵌入向量，即 “记忆令牌”，提供对特定数据集有用的上下文信息。该模型的准确性，通过每层只增加少量记忆令牌来显着改善，表现仅略低于显著更昂贵的完全微调。我们还提出了一个注意力掩模方法，使其能够扩展到新的下游任务，模型可在小的增量成本下同时执行旧任务和新任务。

Mar, 2022

所有标记都很重要：用于训练更好的视觉 Transformer 的令牌标记

本文提出了标记令牌（Token labeling）—— 一种用于训练高性能视觉转换器（ViTs）的新训练目标。该方法可将图像分类问题重组成多个基于令牌级别的识别问题，并为每个补丁令牌分配由机器注释器生成的单独的位置特定监督。实验表明，标记令牌可以显著且一致地提高各种 ViT 模型在广泛光谱上的性能。

Apr, 2021

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

变压器辅助的语义通信

通过使用 transformer 结构进行特征提取，以实现图像压缩和紧凑表示，从而优化语义通信的质量和带宽利用效率。

May, 2024

视觉 Transformer 需寄存器

提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算，从而修复监督和自监控模型的问题，实现密集视觉预测任务的自监控视觉模型的最新技术，使用更大模型进行对象发现，为下游视觉处理提供更平滑的特征图和注意力图。

Sep, 2023

令牌转换的重要性：为了视觉变换器的忠实后置解释

利用我们提出的令牌变换效果的度量来将令牌转换效果纳入解释中，通过在模型的所有层中整合注意权重和令牌转换效果，捕捉整体令牌贡献。实验结果表明，与最先进的 Vision Transformer 解释方法相比，我们提出的 TokenTM 方法具有卓越性能。

Mar, 2024

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021