COOT：用于视频文本表示学习的协作层次 Transformer

Nov, 2020

COOT：用于视频文本表示学习的协作层次 Transformer

COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning

Simon Ging, Mohammadreza Zolfaghari, Hamed Pirsiavash, Thomas Brox

TL;DR本文提出了一种名为 Cooperative hierarchical Transformer (COOT) 的方法，它能够利用不同层次的细节信息和多模态之间的相互作用，同时比同类方法减少了参数数量。

Abstract

Many real-world video-text tasks involve different levels of granularity, such as frames and words, clip and sentences or videos and paragraphs, each with distinct semantics. In this paper, we propose a Cooperative hierarchical Transformer (COOT) to leverage this hierarchy information

cooperative hierarchical transformer granularity feature aggregation layer cross-modal cycle-consistency loss state of the art

发现论文，激发创造

HiT：层次化动量对比视频 - 文本检索的 Transformer 模型

提出了一种新的名为 Hierarchical Transformer (HiT) 的方法，其中包括 Hierarchical Cross-modal Contrastive Matching 和 Momentum Cross-modal Contrast 的元素，以解决现有交叉模式 Transformer 方法存在的局限性，并在三个主要的 Video-Text 检索基准数据集上实现了优越的实验结果。

Mar, 2021

面向文本到视频检索的语义角色感知相关性变换器

该论文提出了一种新型的 Transformer 模型，将文本和视频显式分离，通过注意力机制了解三种角色的内部和内部角色之间的相关性，以在不同级别上寻找识别特征，初步结果表明，在所有的指标中，我们的方法都超过了当前最先进的方法，在两个指标上也超过了两种最先进的方法。

Jun, 2022

TextCoT: 提升多模态文本丰富图像理解的局部放大

提出了一种名为 TextCoT 的 Chain-of-Thought 框架，用于理解富文本图像，利用 LMMs 的字幕能力来把握图像的全局背景和细节地区，从而提供准确的问题回答，方法经过了广泛实验验证了其有效性和强大的普适能力。

Apr, 2024

VLTinT: 视觉语言双重 Transformer，用于连贯的视频段落字幕生成

本文提出了一种新的视觉 - 语言特征模型 (VL feature)，通过 Autoregressive Transformer-in-Transformer (TinT) 模型来捕获视频中的语义，同时提出了一种 VL 对比损失 (VL contrastive loss) 来保证嵌入特征与字幕语义匹配，实验证明该方法优于现有的最优方法。

Nov, 2022

协作三流变压器用于视频字幕生成

通过设计一个名为 COllaborative three-Stream Transformers（COST）的新框架，来在视频字幕任务中对句子的主语、谓语和宾语进行特殊关注，通过三个分支的 transformers 以及交叉粒度的注意力模块对不同粒度的视觉 - 语言交互进行建模和对齐，以获得准确的字幕预测。实验证明，COST 方法在视频字幕领域中表现优于现有的方法。

Sep, 2023

基于 Transformer 的大规模预训练文字到视频生成技术 CogVideo

该研究提出 CogVideo，一个 9B 参数的 transformer 预训练模型，通过继承预训练的文本到图像模型 CogView2 进行训练，同时采用多帧率层次化训练策略以更好地对齐文本和视频片段。作为可能是第一个开源的大规模预训练文本到视频模型，CogVideo 在机器和人类评估中的表现均远超公开的模型。

May, 2022

多层次语言和视觉融合的文本到视频检索

本文提出了一种多层级的模型，早期并更紧密地集成了视觉和语言特性，用于解决从未剪辑的视频中基于文本的活动检索问题，其中包括注入文本特性以加速处理和提高性能，以及利用视觉特征在循环神经网络中模拟查询句子的单词级处理以学习细粒度的相似性度量，同时采用多任务损失函数。该方法在 Charades-STA 和 ActivityNet Captions 两个具有挑战性的基准测试中表现出较高效果。

Apr, 2018

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

CogView2：采用分层 Transformer 技术的更快更好的文本到图像生成

本文提出了基于分层 Transformer 和本地并行自回归生成的解决方案，使用一个简单灵活的自监督任务 CogLM 进行预训练，并将其用于快速超分辨率。新的文本到图像系统 CogView2 相对于最先进的 DALL-E-2 具有非常优异的生成能力，并自然支持图像文本引导编辑。

Apr, 2022

使用分层循环神经网络进行视频段落字幕生成

利用分层循环神经网络和时空注意力机制生成视频字幕，在 YouTube 和 TACoS 数据集上验证具有更高 BLEU 得分。

Oct, 2015