稀疏边界感知 Transformer 的视频字幕生成 (SBAT)

IJCAIJul, 2020

稀疏边界感知 Transformer 的视频字幕生成 (SBAT)

SBAT: Video Captioning with Sparse Boundary-Aware Transformer

Tao Jin, Siyu Huang, Ming Chen, Yingming Li, Zhongfei Zhang

TL;DR本研究关注将 Transformer 结构应用于视频字幕生成的问题，提出了一种称作 Sparse Boundary-Aware Transformer (SBAT) 的方法来减少视频表征冗余，通过对多头注意力得分的边界感知池化操作和来自不同情境的选择性特征，以及引入局部相关性机制来补偿稀疏操作带来的局部信息丢失，实现多模态交互。在两个基准数据集上的实验结果表明，SBAT 在大多数指标下优于现有方法。

Abstract

In this paper, we focus on the problem of applying the transformer structure to video captioning effectively. The vanilla transformer is proposed for uni-modal language generation task such as machine translation

transformer structure video captioning multi-modal learning sparse boundary-aware transformer multimodal interaction

发现论文，激发创造

SwinBERT：基于稀疏注意力的端到端变压器模型用于视频字幕生成

本文提出了一种基于 SwineBERT 的视频字幕生成模型，该模型通过对稠密采样的视频帧进行变换来进行自适应学习，同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升，在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。

Nov, 2021

音视频线索的更佳应用：基于双模变换器的密集视频字幕

本文介绍了一种基于 Transformer 结构的双模态编码器，用于处理 Dense Video Captioning 任务，通过同时处理视频和音频两种输入，该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。

May, 2020

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

用于通用事件边界字幕生成的双流 Transformer

本文介绍了我们在 CVPR2022 Generic Event Boundary Captioning 竞赛中的冠军方案，提出了一种名为 Dual-Stream Transformer 的模型，利用三个预训练模型从不同颗粒度提取视频特征以辅助生成说说内容，设计了词级集成策略以提升生成质量，在 GEBC 测试集上取得了良好的效果。

Jul, 2022

模糊感知时空稀疏变压器用于视频去模糊

提出了一种名为 BSSTNet 的模型，它通过引入模糊图，将初始的密集注意力转化为稀疏形式，从而更全面地利用整个视频序列中的信息。BSSTNet 在变换器中使用了更长的时间窗口，利用较远帧中的信息来修复当前帧中的模糊像素，同时引入了由模糊图引导的双向特征传播，降低了由模糊帧引起的错误累积。实验结果表明，提出的 BSSTNet 在 GoPro 和 DVD 数据集上优于现有的方法。

Jun, 2024

高效的选择性音频屏蔽多模声道变换器用于音频 - 视频分类

提出了一种名为 AVT 的新颖的音视频识别方法，利用视频 Transformer 在时空上的表示来提高动作识别的准确性，并通过音视频瓶颈 Transformer 减少跨模态复杂度，融合自监督目标，而进一步引入一个屏蔽音频片段损失，以学习 AVT 中的语义音频活动。在多个数据集上的实验及消融研究一致表明 AVT 方法的有效性。

Jan, 2024

带有角色引导和标题增强的遮蔽生成故事变换器

Story Visualization 任务的挑战在于生成图像序列中的视觉质量和帧间的一致性。我们采用并行的基于 transformer 的方法，通过过去和未来的描述与图像进行交叉注意力来实现一致性，并结合文本条件和字符条件的逻辑回归来隐式生成角色，进而提出了一种角色指导技术。同时我们使用大型语言模型进行标题增强，得到了优于以往方法的最先进结果，验证了我们的定量结果的有效性。

Mar, 2024

视频检索的多模态 Transformer

本文提出了一种基于多模态 transformer 架构的视频检索方法，该方法能够充分利用视频中的跨模态线索，并融合先前的时间信息。我们还研究了联合优化语言嵌入和多模态 transformer 的最佳实践。该方法在三个数据集上取得了最新的视频检索结果。

Jul, 2020

基于字幕基础模型的少样本动作识别

通过 CapFSAR 框架，我们利用预训练的多模态基础模型的知识，从合成描述中提取视觉特征和相关文本嵌入，并设计了基于 Transformer 的视觉文本聚合模块，以在低样本情况下实现更全面的分类。在多个标准的少样本基准实验中，我们的 CapFSAR 方法表现优于现有方法，并达到了最先进的性能。

Oct, 2023

Transformer meets Stochastic Block Model: 数据自适应稀疏性和成本的注意力

本研究提出了 SBM-Transformer 模型，利用基于混合成员资格随机块模型（SBM）的稀疏注意力来解决二次成本问题，并证明了 SBM-Transformer 是任意序列到序列函数的通用逼近器，同时在 LRA 和 GLUE 基准测试中表现出优异的性能。

Oct, 2022