ACLOct, 2022

使用细粒度帧采样的对比视频语言学习

TL;DRFineCo 使用 Fine-grained Contrastive Loss 对视频帧进行抽样,以更好地学习视频和语言表示,从而提高跨模态对应性和在文本 - 视频检索和视频问答数据集上取得了有竞争力的成果,尤其是在 YouCookII 上实现了最先进的性能。