子对象级别图像标记化

Feb, 2024

Subobject-level Image Tokenization

Delong Chen, Samuel Cahyawijaya, Jianfeng Liu, Baoyuan Wang, Pascale Fung

TL;DR基于 Transformer 的视觉模型通常将图像以固定大小的方形分块作为输入单元，缺乏对图像内容的适应性，忽视了固有的像素分组结构。受语言模型中广泛采用的子词分词启发，我们提出了一种在子对象级别进行图像分词的方法，其中子对象通过分割模型（例如，分割任意模型）获得的具有语义含义的图像段表示。为了基于子对象分词实现学习系统，我们首先引入了一个序列到序列自编码器（SeqAE），将具有不同尺寸和形状的子对象段压缩为紧凑的嵌入向量，然后将子对象嵌入输入到大型语言模型中进行视觉语言学习。实证结果表明，与传统的分块级别分词相比，我们的子对象级别分词显著促进了将图像翻译为对象和属性描述的高效学习。代码和模型将在此 https URL 开源。

Abstract

transformer-based vision models typically tokenize images into fixed-size square patches as input units, which lacks the adaptability to image content and overlooks the inherent pixel grouping structure. Inspired by the subword tokenization widely adopted in language models, we propose

transformer-based vision models image tokenizer subobject-level tokenization sequence-to-sequence autoencoder (seqae)vision language learning

发现论文，激发创造

混合分辨率令牌化的视觉 Transformer

本文介绍了一种新的图像标记方案 —— 混合分辨率标记 —— 以及如何使用 Quadtree 算法和新的显著性评分器构建图像的代表通量，进而实现更好的图像分类。

Apr, 2023

自然语言语义下的视觉 Transformer

通过引入基于分割模型的新型分词器策略，语义视觉转换器（sViT）在捕获显著特征和全局依赖关系的同时，提高了解释性和鲁棒性，相较于传统视觉转换器模型（ViT）在训练数据需求、分布泛化和解释性方面表现得更优。

Feb, 2024

使用语义有意义的标记理解视觉表示学习的效果

在视觉 - 语言预训练框架中，通过提供语义上有意义的视觉标记给 transformer 编码器，本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制，并通过使用现成的分割和场景图模型，提取了实例分割掩码（称为有形标记）和关系动作（称为无形标记）的表示，从而在视觉 side 的 transformer 预训练中引入了这些新增的标记，并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明，在 COCO 数据集上，相比 ViTs，在文本到图像（+47%）和图像到文本（+44%）检索任务中学到了更好的表示质量，并且在组合性评估基准（如 ARO（+18%）和 Winoground（+10%））上展示了优势。

May, 2024

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

面向多模态语言模型中的标记化语义等价性

提出了一种新颖的动态语义等价视觉标记器（SeTok）来解决现有视觉标记器的问题，该标记器通过动态聚类算法将视觉特征分组为语义单元，灵活确定标记数目。由此产生的视觉标记能够有效地保持语义完整性，并捕捉低频和高频视觉特征。所提出的具备 SeTok 的多模态大型语言模型（Setokim）在各种任务中显着展现了卓越的性能，如我们的实验结果所证明。

Jun, 2024

目标识别作为下一个令牌预测

通过将图像嵌入到文本令牌的自回归预测过程中，我们提出了一种将目标识别作为下一个令牌预测的方法。我们通过自定义非因果注意掩码来将预测过程与自回归相结合，其中包括将不同标签的令牌建模为独立，并将图像令牌视为前缀。我们提出了一种高效的一次性采样方法来同时并行采样多个标签的令牌，并在推理过程中通过它们的概率对生成的标签进行排名。为了进一步提高效率，我们提出了一个简单的策略，通过简单丢弃预训练语言模型的中间块来构建一个紧凑的解码器。这种方法在保持整体模型性能的同时具有显著的效率优势。

Dec, 2023

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

从标记稀疏化视角提高视觉 Transformer 的效率

本文介绍了一种基于语义标记的 ViT 模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行 attention 的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

所有标记都很重要：用于训练更好的视觉 Transformer 的令牌标记

本文提出了标记令牌（Token labeling）—— 一种用于训练高性能视觉转换器（ViTs）的新训练目标。该方法可将图像分类问题重组成多个基于令牌级别的识别问题，并为每个补丁令牌分配由机器注释器生成的单独的位置特定监督。实验表明，标记令牌可以显著且一致地提高各种 ViT 模型在广泛光谱上的性能。

Apr, 2021

一张图像胜过 16x16 贴片：研究基于单个像素的 Transformer 模型

本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问，可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。

Jun, 2024