CVPRJul, 2022

用于通用事件边界字幕生成的双流 Transformer

TL;DR本文介绍了我们在 CVPR2022 Generic Event Boundary Captioning 竞赛中的冠军方案,提出了一种名为 Dual-Stream Transformer 的模型,利用三个预训练模型从不同颗粒度提取视频特征以辅助生成说说内容,设计了词级集成策略以提升生成质量,在 GEBC 测试集上取得了良好的效果。