我们提出了一个新的大规模多语言视频描述数据集 VATEX, 其中包含超过41,250个视频和825,000条英文和中文字幕,拥有超过206,000个英中平行翻译对。我们还基于 VATEX 引入了两项视频与语言研究任务:(1)多语言视频字幕生成,旨在使用紧凑的统一字幕模型以各种语言描述视频,(2)视频引导机器翻译,使用视频信息作为附加时空上下文将源语言描述翻译成目标语言。VATEX数据集的广泛实验表明,该统一多语言模型不仅可以更高效地生成视频的英文和中文描述,而且可以提供比单语言模型更好的性能。此外,我们还证明,时空视频上下文可以有效地用于对齐源语言和目标语言,从而帮助机器翻译。最后,我们讨论了使用VATEX进行其他视频与语言研究的潜力。
Apr, 2019
本文介绍了在大规模多模式视频数据集上的自我监督学习的发展;提出了一种基于生成模型的方法,以翻译问题的形式解决了这一问题,并将其应用于多种下游视频理解任务中。结果表明,本方法在性能上优于基于对比度度量学习的方法。
Jun, 2020
本文提出了一种高分辨率和多样化的视频-语言预训练模型(HD-VILA),它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互,取得了10个VL理解任务和2个文本到视觉生成任务的最新结果
Nov, 2021
本文利用自动生成的大规模全模态视频字幕数据集VAST-27M来探索多模态视频轨道(包括视觉、音频和字幕)与文本之间的联系,训练出了一种全模态视频-文本初始模型VAST,该模型可以感知和处理视频中的多种模式,并且在各种跨模态基准测试中获得了22项新的最先进结果。
May, 2023
通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集,探索大型预训练模型在多模机器翻译任务中的应用。
Jun, 2023
本文介绍了InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频-文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频-文本数据集,并使用大型语言模型,展示了其在学习大规模视频-语言编码中的效力。
Jul, 2023
通过引入EVA数据集和SAFA模型,使用视频信息进行歧义消除的多模式机器翻译(MMT)模型能够有效提高翻译性能。
Oct, 2023
本研究利用合成的教学数据对图像语言基准进行微调,生成高质量的视频标题,构建适应视频和语言的模型,并在多个视频-语言基准上取得了显著结果。
Jan, 2024
通过多模态输入构建高质量视频数据集,使用检索模型选择最佳字幕注释,名为Panda-70M,训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。
Feb, 2024
本研究针对长视频理解面临的独特挑战,探讨了多模态大语言模型(MM-LLMs)的设计与训练差异。通过总结现有研究进展,本论文揭示了在空间时间细节和长期依赖性方面的关键问题,并展示了MM-LLMs在不同视频长度理解基准测试中的表现,为未来长视频理解的方向提供了重要见解。
Sep, 2024