Oct, 2022

使用细粒度帧采样的对比视频语言学习

TL;DRFineCo使用Fine-grained Contrastive Loss对视频帧进行抽样,以更好地学习视频和语言表示,从而提高跨模态对应性和在文本-视频检索和视频问答数据集上取得了有竞争力的成果,尤其是在YouCookII上实现了最先进的性能。