SwinBERT：基于稀疏注意力的端到端变压器模型用于视频字幕生成

CVPRNov, 2021

SwinBERT：基于稀疏注意力的端到端变压器模型用于视频字幕生成

SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning

Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan...

TL;DR本文提出了一种基于 SwineBERT 的视频字幕生成模型，该模型通过对稠密采样的视频帧进行变换来进行自适应学习，同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升，在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。

Abstract

The canonical approach to video captioning dictates a caption generation model to learn from offline-extracted dense video features. These feature extractors usually operate on video frames sampled at a fixed frame rate and are often trained on image/video understanding tasks, without

video captioning transformer-based model dense sampling attention mask performance improvement

发现论文，激发创造

稀疏边界感知 Transformer 的视频字幕生成 (SBAT)

本研究关注将 Transformer 结构应用于视频字幕生成的问题，提出了一种称作 Sparse Boundary-Aware Transformer (SBAT) 的方法来减少视频表征冗余，通过对多头注意力得分的边界感知池化操作和来自不同情境的选择性特征，以及引入局部相关性机制来补偿稀疏操作带来的局部信息丢失，实现多模态交互。在两个基准数据集上的实验结果表明，SBAT 在大多数指标下优于现有方法。

Jul, 2020

少即是多：基于稀疏采样的 ClipBERT 视频与语言学习

提出了一个 ClipBERT 的通用框架，通过稀疏采样实现了视频和语言任务的廉价端到端学习，该方法在多个数据集上进行的实验表明，与使用全长视频的现有方法相比，使用少量稀疏采样剪辑进行端到端学习通常更准确。

Feb, 2021

SViTT: 稀疏视频文本 Transformer 的时间学习

通过引入边缘稀疏性和节点稀疏性的 SViTT 稀疏视频文本架构可以以较低的成本进行多帧推理，优于朴素变压器基线，并对多个视频文本检索和问答基准进行了训练，以及在更长的片段长度下是针对模型稀疏性（sparsity）进行了培训。

Apr, 2023

Video Swin Transformer

本文介绍了一种针对视频领域的区域局部性 Transformer 架构，通过使用 Swin Transformer 设计来实现，同时利用预训练模型的威力，取得了行动识别和时间建模等广泛的视频识别基准的最新准确性。

Jun, 2021

使用掩码变换器进行端到端的密集视频字幕生成

本研究提出了一种基于 Transformer 模型的端到端的视频描述生成方法来解决 dense video captioning 中语言描述与事件提案建立之间的直接联系问题，并通过 ActivityNet Captions 和 YouCookII 数据集的实验表明其性能提高。

Apr, 2018

基于端到端 Transformer 的图像描述模型

本文提出了一种基于 Transformer 的图像描述模型，使用 SwinTransformer 提取网格级特征，一阶段完成训练并实现 end-to-end 生成描述，得到了 MSCOCO 数据集上 state-of-the-art 的表现。

Mar, 2022

准确快速压缩视频字幕生成

在压缩领域中，通过使用简单而有效的端到端转换器实现从压缩视频中进行学习并进行视频字幕生成，该方法在不同基准测试中取得了最先进的性能，并且运行速度比现有方法快近 2 倍。

Sep, 2023

多面向注意力的视频字幕生成

本文提出了一种新的视频字幕生成方法，利用多种视觉特征和语义属性的层次，采用 LSTM 网络进行句子生成，实现自动选取最突出的视觉特征或语义属性，有望提高字幕生成的精确度。实验结果表明，该框架胜过现有最先进的方法，并可进一步提升精度至近于人类水平。

Dec, 2016

端到端视频字幕生成

本文提出了采用端到端训练的方法来实现视频描述生成，并在微软研究视频描述数据集 (MSVD) 和微软视频到文本数据集 (MSR-VTT) 上取得了最新的最优表现。

Apr, 2019

音视频线索的更佳应用：基于双模变换器的密集视频字幕

本文介绍了一种基于 Transformer 结构的双模态编码器，用于处理 Dense Video Captioning 任务，通过同时处理视频和音频两种输入，该模型在 ActivityNet Captions 数据集上取得了出色的性能表现。

May, 2020