vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并

CVPRMar, 2024

vid-TLDR: 轻量级视频 Transformer 的无训练自由标记合并

vid-TLDR: Training Free Token merging for Light-weight Video Transformer

Joonmyung Choi, Sanghyeok Lee, Jaewon Chu, Minhyuk Choi, Hyunwoo J. Kim

TL;DR提出了轻量级视频 Transformer（vid-TLDR）的训练免费的令牌合并策略，通过合并背景令牌并通过关注图捕捉显著区域来提高视频 Transformer 的效率。实验证明，vid-TLDR 显着减轻了视频 Transformer 的计算复杂度，并且在与基准模型相比的性能上取得了有竞争力的结果。

Abstract

video transformers have become the prevalent solution for various video downstream tasks with superior expressive power and flexibility. However, these video transformers suffer from heavy →

video transformers computational costs token merging salient regions saliency-aware token merging strategy

发现论文，激发创造

视觉 Transformer 中的标记合并学习

本文介绍了一种减少 Transformers 计算代价的方法 —— 使用 PatchMerger 模块将网络处理的补丁或令牌数量缩减，从而在不影响性能的情况下实现了显著的加速。

Feb, 2022

基于学习的阈值令牌合并和修剪用于视觉 Transformer

这篇论文介绍了一种名为 LTMP 的学习阈值符号合并和修剪方法，它通过动态确定合并和修剪的符号，以降低计算视觉变换器所需的输入符号数量，实现了在降低速率的同时保持最先进的准确性，在仅一个微调阶段的情况下比先前的方法快一个数量级以上。

Jul, 2023

VidToMe: 零摄影剪辑的视频令牌合并

通过合并帧间的自注意力标记，提高生成视频的时间一致性和降低内存使用，从而实现图像编辑技术在视频编辑领域的扩展。

Dec, 2023

ViGT：在 Transformer 模型中具有可学习令牌的无需提议的视频定位

基于视觉和语言描述，本研究提出了一种新的边界回归范式来定位视频中的行为或事件，通过一个可学习的回归标记来预测时间边界，而非跨模态特征，取得了良好的效果并得到了进一步验证。

Aug, 2023

一种用于 Vision Transformer 的快速无需训练的压缩框架

提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架，其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法，在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升，训练时间比现有方法节省两个数量级。

Mar, 2023

VIOLET: 基于端到端视频 - 语言变换器的遮蔽视觉令牌建模

VIOLET 是一个采用视频变换器来显式建模视频输入的全尺寸端到端视频语言变换器，通过设计一个新的预训练任务 Masked Visual-token Modeling（MVM）进行更好的视频建模，综合分析证明了其显式时间建模和 MVM 的有效性，取得了 5 种视频问答任务和 4 种文本到视频检索任务的最新最好性能。

Nov, 2021

多尺度和令牌合并：让您的 ViT 更高效

本文提出一种新的 token pruning 方法，通过筛选关键词实现计算效率和模型效果的折衷，实验结果表明，该方法可显著降低计算成本，同时仅导致 0.1% 的 DeiT-S 识别精度下降。

Jun, 2023

Video-LaVIT：统一的视频 - 语言预训练与解耦的视觉 - 运动词汇编

本文介绍了一种用于视频 - 语言预训练的高效视频分解的方法，该方法通过设计良好的分词器将视觉和时间信息离散化为少量的标记，从而使大规模生成式预训练能够统一视频、图像和文本内容。在图像和视频的理解和生成的 13 个多模态基准测试中，我们提出的框架表现出竞争性的性能。

Feb, 2024

PuMer：用于高效视觉语言模型的剪枝和合并机制

PuMer 是一个使用文本感知修剪和模态感知合并策略的令牌减少框架，可通过在 VL 模型中添加轻量级令牌缩减器模块来改进模型推理速度和减少内存占用，从而提高了 VL 任务的推理吞吐量并减少了内存占用。

May, 2023

TDViT：用于密集视频任务的时序扩张视频变换器

我们提出了一种时态扩张视频变换器 (Temporal Dilated Video Transformer, TDViT)，通过使用层次化的时态扩张变换器块 (Temporal Dilated Transformer Blocks, TDTB) 来提取时空表示，并有效缓解时态冗余的负面影响，从而模拟长程动态。通过在两个不同的密集视频基准上进行广泛实验，即用于视频物体检测的 ImageNet VID 和用于视频实例分割的 YouTube VIS，出色的实验结果证明了我们方法的出色效率、有效性和兼容性。

Feb, 2024