目标区域视频转换器

CVPROct, 2021

Object-Region Video Transformers

Roei Herzig, Elad Ben-Avraham, Karttikeya Mangalam, Amir Bar, Gal Chechik...

TL;DR本文提出了 Object-Region Video Transformers (ORViT)—— 一种基于对象的视觉转换方法，通过融合早期层的对象间信息直接影响整个网络的时空表示。我们的模型通过面向对象的自我关注和分离对象的动态特征来捕获物体和其在视频中的动态交互，取得了在多项任务和数据集上的显著性能提升。

Abstract

Recently, video transformers have shown great success in video understanding, exceeding CNN performance; yet existing video transformer models do not explicitly model objects, although objects can be essential for recognizing actions. In this work, we present object-region video transformers<

object-region video transformers object-centric approach self-attention spatio-temporal representations few-shot action recognition

发现论文，激发创造

区域感知预训练与视觉 Transformer 实现开放式目标检测

提出了一种区域感知的开放词汇视觉 Transformer（RO-ViT）预训练方法，其中使用区域级别的位置嵌入来代替整个图像位置嵌入，取得了在 LVIS 和 COCO 开放词汇检测基准测试的最佳效果。

May, 2023

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

生成式视频变压器：物体能否成为语言的基本单位？

本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer（OCVT）模型，该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态，相较于基于像素的模型，其显著提高了记忆效率，能够在单个 48GB GPU 上训练长度达 70 帧的视频，且在 CATER 任务上取得了最新的实验结果。

Jul, 2021

OLViT: 基于注意力嵌入的视频对话多模态状态追踪

我们提出了 Object Language Video Transformer (OLViT) - 一种新颖的视频对话模型，它在基于多模态注意力的对话状态跟踪器上运行。OLViT 通过维护基于对象状态跟踪器 (OST) 和语言状态跟踪器 (LST) 的全局对话状态来解决现有视频对话模型在视频中需要空间和时间定位、长期时间推理和跨多个对话轮次的准确对象跟踪等问题。与之前的工作形成鲜明对比的是，我们的方法和性质是通用的，因此能够学习到最相关的对象和轮次的连续多模态对话状态表示。因此，它们可以无缝地与大型语言模型 (LLM) 集成，并在处理不同数据集和任务时具有高灵活性。在具有挑战性的 DVD (响应分类) 和 SIMMC 2.1 (响应生成) 数据集上的评估结果显示，OLViT 实现了两个数据集上的新的最先进性能。

Feb, 2024

视频实例分割的时间高效视觉 Transformer

提出了一种名为 TeViT 的视觉 Transformer，它在视频实例分割任务中高效地对关键的时间信息进行建模，并在三个广泛采用的视觉实例分割基准测试中取得了最新的结果。

Apr, 2022

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

高效自监督视觉 Transformer 模型用于表示学习

本文研究了发展高效的自监督视觉变换器（EsViT）的两种技术，第一，我们通过全面的实证研究显示具有稀疏自我注意力的多阶段架构可以显着减少建模复杂性，但代价是失去捕捉图像区域之间的细粒度对应关系的能力。第二，我们提出了新的预训练任务区域匹配，允许模型捕捉细粒度区域依赖性，从而显着提高了学习到的视觉表示的质量。我们的结果表明，结合这两种技术，EsViT 在 ImageNet 线性探针评估中达到 81.3％的 top-1，超过以前的艺术水平，吞吐量大约高一个数量级。在转移到下游线性分类任务时，EsViT 在 18 个数据集中的 17 个数据集上优于其受监督的对应物。代码和模型可公开获取：该 URL。

Jun, 2021

ViDT：一种高效且有效的全 Transformer 目标检测器

本论文介绍了 ViDT，一个将视觉和检测 Transformers 整合在一起，以构建一个有效且高效的物体检测器，其中包含了重新配置的注意力机制以及计算效率高的 Transformer 解码器来提高检测性能。ViDT 在 Microsoft COCO 基准数据集上的广泛评估结果表明，它在现有的完全基于 Transformer 的目标检测器中具有最佳的 AP 和延迟平衡，并且可以实现高扩展性的大型模型，其 AP 为 49.2。

Oct, 2021