Apr, 2019

VATEX:一个大规模、高质量、多语种的视频与语言研究数据集

TL;DR我们提出了一个新的大规模多语言视频描述数据集 VATEX, 其中包含超过41,250个视频和825,000条英文和中文字幕,拥有超过206,000个英中平行翻译对。我们还基于 VATEX 引入了两项视频与语言研究任务:(1)多语言视频字幕生成,旨在使用紧凑的统一字幕模型以各种语言描述视频,(2)视频引导机器翻译,使用视频信息作为附加时空上下文将源语言描述翻译成目标语言。VATEX数据集的广泛实验表明,该统一多语言模型不仅可以更高效地生成视频的英文和中文描述,而且可以提供比单语言模型更好的性能。此外,我们还证明,时空视频上下文可以有效地用于对齐源语言和目标语言,从而帮助机器翻译。最后,我们讨论了使用VATEX进行其他视频与语言研究的潜力。