ECCVOct, 2022

利用用户评论提升视频文字检索

TL;DR本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。