ACLJul, 2021

MTVR:视频中的多语言时刻检索

TL;DR本文介绍了 mTVR,这是一个大规模的多语言视频瞬间检索数据集,包含来自 21.8K 个电视节目的 218K 英文和中文查询。同时,还介绍了 mXML 模型,通过编码器参数共享和语言邻域约束,学习和操作两种语言的数据。该模型在新收集的 MTVR 数据集上表现出色,超过强大的单语基线模型,同时使用较少的参数。