AAAISep, 2020

自监督预训练和对比表征学习在多项选择视频 QA 中的应用

TL;DR本文介绍了一种新的多项选择视频问题回答(Video QA)的训练方案,其中包括自监督预训练阶段和监督对比学习的辅助学习。在自监督预训练阶段中,我们将原始问题格式进行了转化,以预测相关问题并提供模型更广泛的背景输入。然后,我们在对比学习的主阶段中添加了屏蔽噪声,并通过将正样本映射到受掩输入来改进模型表现。最后,我们采用了本地对齐注意力来更有效地关注相关字幕句子的视频帧。我们的实验结果表明,我们的模型在相关测试集上均取得了最先进的性能,并通过进一步的分析验证了我们的方法。