通过自动增强语言 - 视频数据集和多方位视频字幕生成方法,提高语言 - 视频表示能力,并通过多模态检索模型验证其有效性。
Jun, 2024
研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效,并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。
Oct, 2022
通过对多个视频字幕数据集的正确组合,我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术,成果展示了在无微调的情况下,单一模型在两个数据集上实现了最先进的结果。
Mar, 2021
构建了 MultiVENT 数据集,该数据集包括多语言、以事件为中心的视频,用于分析在线新闻视频的状态,并利用其构建强大、事实准确的模型,并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。
Jul, 2023
本文介绍了 InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频 - 文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集,并使用大型语言模型,展示了其在学习大规模视频 - 语言编码中的效力。
提出了一种新的跨模态视频检索数据集 TextVR,它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句,并介绍了一种统一的跨模态模型,有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。
May, 2023
本研究提出了一个大规模的视频字幕翻译数据集 BigVideo,用于促进多模态机器翻译的研究;在跨模态编码器中引入了对比学习方法,结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。
本文介绍了一个包含视频、标题和评论的新数据集,并 presents 了一种基于 attention-based 机制的方法,该方法可以让模型从用户评论等有时不相关的数据中学习,并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。
本文提出了一种多模态记忆模型 (M3),利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力,该方法在公开基准数据集上的实验证明,相比于最先进的方法,本文提出的方法在 BLEU 和 METEOR 方面表现较好。
Nov, 2016
通过引入全面的多模式视频理解基准 (MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型 (MLLMs) 的时间理解能力,并且开发了一种强大的视频 MLLM 基准模型 VideoChat2,检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。
Nov, 2023