生成式视频变压器：物体能否成为语言的基本单位？

ICMLJul, 2021

生成式视频变压器：物体能否成为语言的基本单位？

Generative Video Transformer: Can Objects be the Words?

Yi-Fu Wu, Jaesik Yoon, Sungjin Ahn

TL;DR本文介绍了一种利用 “Object-Centric” 思想的视频生成器 ——Object-Centric Video Transformer（OCVT）模型，该模型通过将场景分解为对象来学习多个相互作用对象的复杂空间 - 时间动态，相较于基于像素的模型，其显著提高了记忆效率，能够在单个 48GB GPU 上训练长度达 70 帧的视频，且在 CATER 任务上取得了最新的实验结果。

Abstract

transformers have been successful for many natural language processing tasks. However, applying transformers to the video domain for tasks such as long-term →

transformers object-centric video generation scene understanding spatio-temporal dynamics

发现论文，激发创造

针对检索的目标感知视频语言预训练

本文提出了基于物体感知的 Transformer 模型 Object-aware Transformers，使用边界框和物体标签来引导训练过程，将对象表示法引入视频 - 语言架构中，从而提高了视频文本匹配任务的性能。

Dec, 2021

目标区域视频转换器

本文提出了 Object-Region Video Transformers (ORViT)—— 一种基于对象的视觉转换方法，通过融合早期层的对象间信息直接影响整个网络的时空表示。我们的模型通过面向对象的自我关注和分离对象的动态特征来捕获物体和其在视频中的动态交互，取得了在多项任务和数据集上的显著性能提升。

Oct, 2021

以物体为中心的视频表示对长期行动预测

本文旨在建立面向视频中长期动作预测的物体中心表示。我们提出利用视觉 - 语言预训练模型构建物体中心视频表示，通过 “物体提示” 从通用预训练模型中提取任务特定的物体中心表示。我们使用基于 Transformer 的神经架构来识别和预测人 - 物交互，并在 Ego4D、50Salads 和 EGTEA Gaze + 基准测试上进行了广泛评估，定量和定性结果证实了我们提出方法的有效性。

Oct, 2023

基于 Transformer 的视频目标分割算法

本研究提出了基于 AOT 的嵌入式学习方法，通过将多个对象相互关联在同一高维度嵌入空间中，实现了同时处理多个对象的匹配和分割解码，具有更高的效率，并且在多个基准测试中均优于已有的 State-of-the-art 算法，是第三次大规模 VOS 挑战的第一名。

Jun, 2021

图像字幕生成：物体到文字的转换

本文介绍了一种名为 “Object Relation Transformer” 的图像描述模型，该模型在编码器 - 解码器架构中显式地整合了有关输入检测对象的空间关系，以几何关注的方式建模。结果表明，这种几何关注对图像描述非常重要，并在 MS-COCO 数据集上的各种标准评估指标上均有改进。

Jun, 2019

ViViT: 一种视频视觉 Transformer

本研究提出一种基于纯 Transformer 模型的视频分类方法，采用从图像分类中成功应用的模型。通过从输入视频中提取时空标记，并通过一系列 Transformer 层进行编码。为了处理视频中遇到的长序列，我们提出了一些高效的模型变体，可分解输入的空间和时间维度。尽管 Transformer 模型只在有大型训练数据集时有效，但我们展示了如何有效规范化模型，并利用预训练的图像模型，使得我们能够在相对较小的数据集上进行训练。我们进行了彻底的削减研究，并在多个视频分类基准测试中实现了最先进的结果，包括 Kinetics 400 和 600，Epic Kitchens，Something-Something v2 和 Moments in Time，优于基于深度 3D 卷积网络的先前方法。为了促进进一步的研究，我们在以下链接中发布了代码。

Mar, 2021

OmniVid: 通用视频理解的生成框架

通过使用语言作为标签并引入时间和区域标记，我们寻求统一视频理解任务的输出空间，以建立全共享的编码器 - 解码器架构，并通过大量实验证明这一简单而直接的想法在七个视频基准测试中取得了最先进的或有竞争力的结果，为更普遍的视频理解提供了新的观点。

Mar, 2024

使用 Transformer 进行视觉定位

该论文提出了一种基于 Transformer 编码器 - 解码器的视觉 grounding 方法，通过在不损伤位置定位能力的前提下，在文本描述的指导下学习语义鉴别的视觉特征，具有强大的文本 - 视觉语境语义捕捉能力。实验结果表明，在保持快速推理速度的同时，该方法在五个基准上优于现有的提案 - free 方法。

May, 2021

将通用预训练的视觉 Transformer 重新塑造为面向对象的场景编码器，用于操作策略

通过使用预训练图像表示编码器和视觉转换器，Scene Objects From Transformers (SOFT) 构建了一个对象中心化嵌入，无需进一步训练即可优化机器人的操作任务。

May, 2024

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022