Apr, 2022

视频与语言联系定位的多级对齐训练方案

TL;DR本文着眼于视频和语言之间的语义联系,提出了一种多级对齐训练方案,基于信息相似性从高层次的上下文到细粒度的语义,通过对称损失来对齐视频和语言的编码,从而在共享特征空间中确保相似信息紧密编码而不同语义的信息保持分开。我们的多级对齐训练可应用于各种视频和语言接地任务。连同任务特定的训练损失,我们的框架在多个视频 QA 和检索数据集上实现了与先前现有技术的可比较性能。