COLINGApr, 2022

端到端密集视频字幕生成

TL;DR本文提出一种联合建模的方法,将稠密视频字幕的两个子任务共同作为一个序列生成任务,同时预测事件和相应的描述,并使用 YouCook2 和 ViTT 的实验结果表明了该方法的可行性和在大规模预训练模型中集成端到端密集视频字幕等复杂任务中的适用性。