CVPRNov, 2021
SwinBERT:基于稀疏注意力的端到端变压器模型用于视频字幕生成
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning
Kevin Lin, Linjie Li, Chung-Ching Lin, Faisal Ahmed, Zhe Gan...
TL;DR本文提出了一种基于 SwineBERT 的视频字幕生成模型,该模型通过对稠密采样的视频帧进行变换来进行自适应学习,同时通过自适应学习稀疏注意力掩码来对长序列视频进行建模以实现任务性能提升,在五个电影字幕数据集上取得了显著的性能改进和新的最佳结果。