TokenLearner：8 个学习到的令牌能为图像和视频做什么？

Jun, 2021

TokenLearner：8 个学习到的令牌能为图像和视频做什么？

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?

Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova

TL;DR本文介绍了一种新的视觉表示学习方法，它依赖于少量自适应学习的令牌，并适用于图像和视频理解任务。与依赖手动设计的分割策略和处理大量密集抽样补丁以获取注意力的方法不同，我们的方法学习从视觉数据中挖掘重要令牌，从而有效地找到一些重要的视觉令牌，并使其能够对视频中更长的时空范围或图像中的空间内容进行配对注意力建模，同时具有更高的计算效率。在多个具有挑战性的基准测试中表现强劲，并且获得了与 ImageNet 的最新结果可比的结果，同时计算量显著降低。我们还在多个视频数据集（包括 Kinetics-400，Kinetics-600，Charades 和 AViD）上验证了该方法的有效性。

Abstract

In this paper, we introduce a novel visual representation learning which relies on a handful of adaptively learned tokens, and which is applicable to both image and →

visual representation learning adaptively learned tokens image understanding video understanding pairwise attention

发现论文，激发创造

使用语义有意义的标记理解视觉表示学习的效果

在视觉 - 语言预训练框架中，通过提供语义上有意义的视觉标记给 transformer 编码器，本文探索了视觉 transformer 在学习综合和组合性视觉数据表示方面的限制，并通过使用现成的分割和场景图模型，提取了实例分割掩码（称为有形标记）和关系动作（称为无形标记）的表示，从而在视觉 side 的 transformer 预训练中引入了这些新增的标记，并将得到的嵌入与文本编码器中的标题嵌入对齐。实验结果表明，在 COCO 数据集上，相比 ViTs，在文本到图像（+47%）和图像到文本（+44%）检索任务中学到了更好的表示质量，并且在组合性评估基准（如 ARO（+18%）和 Winoground（+10%））上展示了优势。

May, 2024

大型视觉 - 语言模型的视频理解能力的扩展：减少令牌和减少视频

通过利用图像和视频之间的视觉相似性，本文介绍了一种成本效益较高的视频 - LVLM 模型，通过改进模型结构、引入创新的训练策略，并确定最有效的视频指令数据类型，实现了将基于图像的 LVLM 模型高效演化为视频 - LVLM 模型，并在有限资源环境下强调了时间理解的视频培训数据的重要性，提高了模型性能。

Jun, 2024

适应性记号长度的视觉变换器：将长图像变短

通过 Resizable-ViT 模型和 Token-Length Assigner 方法，在保证准确性的前提下，为每个图像分配最小的适当的 token 长度，从而加快 ViT 模型的推理速度，从而显着降低计算成本。

Jul, 2023

所有标记都很重要：用于训练更好的视觉 Transformer 的令牌标记

本文提出了标记令牌（Token labeling）—— 一种用于训练高性能视觉转换器（ViTs）的新训练目标。该方法可将图像分类问题重组成多个基于令牌级别的识别问题，并为每个补丁令牌分配由机器注释器生成的单独的位置特定监督。实验表明，标记令牌可以显著且一致地提高各种 ViT 模型在广泛光谱上的性能。

Apr, 2021

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

提升存储效率训练的伪造令牌

深度神经网络在计算机视觉任务中取得了显著的性能提升，但实现高度可泛化和高性能的视觉模型需要大量的数据集，这对于扩展视觉模型来说是一个关键瓶颈。本文提出了一种基于向量量化的特征向量（即标记）作为视觉分类网络输入，以解决存储挑战，并通过引入 TokenAdapt 和 ColorAdapt 等简单而有效的基于标记的数据增强策略来解决输入域转移问题。实验证明了在各种场景下我们方法的一致性性能提升。

Dec, 2023

一幅图像对于重建与生成而言价值 32 个令牌

这篇研究论文介绍了一种基于 Transformer 的一维令牌化方法（TiTok），其将图像令牌化为一维潜在序列，通过提供更紧凑的潜在表示形式，实现了比传统技术更高效和更有效的图像合成。

Jun, 2024

感知分组解析器：通过迭代分组构建感知

人类视觉识别系统显示了惊人的能力，能够将视觉信息压缩为一组包含丰富表示的令牌，无需标签监督。本文提出了感知分组标记器，一种完全依赖于分组操作的模型，用于提取视觉特征和进行自监督表示学习，其中一系列分组操作被用于迭代地假设像素或超像素的上下文，以改进特征表示。我们表明，与最先进的视觉架构相比，所提出的模型在性能上具有竞争力，并且具有自适应计算和可解释性等可取的属性。具体而言，感知分组标记器在 ImageNet-1K 自监督学习基准测试中以线性探测评估获得 80.3％的性能，标志着这一范例的新进展。

Nov, 2023

LLaMA-VID: 大型语言模型中的图像抵值 2 个令牌

通过引入 LLaMA-VID 方法处理视频和图像理解中的标记生成挑战，减轻了长视频处理中的计算负担，并证明在大多数基于视频或图像的基准测试中能超越之前的方法。

Nov, 2023

Tokens-to-Token ViT: 在 ImageNet 上从头开始训练视觉 Transformer 模型

本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器，用于图像分类，通过对输入图像进行递归聚合邻近的 Tokens，结合本地结构进行建模，从而提高模型训练样本效率，并减少模型参数和计算量，最终在 ImageNet 数据集上取得了优秀的表现。

Jan, 2021