多语种事件视频与对齐自然文本
通过对 ReutersViLNews 数据集进行大规模分析,我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战,并提供了未来解决 ReutersViLNews 数据集的方法。
Jan, 2024
本文介绍了开发第一个印象尼西亚视频文本数据集的方法,并使用交叉语言迁移学习来改进三个任务的表现,即文本到视频检索,视频到文本检索和视频字幕生成。
Jun, 2023
本篇论文介绍了一种新的视频多媒体事件提取(Video M2E2)任务以及两个创新组件,用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息,未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。
Sep, 2021
3MASSIV 是一个多语言、多模态、多方面的专家标注数据集,由来自 Moj 短视频社交媒体平台的多样化短视频和 11 种不同语言的 100K 未标注视频组成,通过其独特的音频和视觉格式表达了流行的短视频趋势,介绍了 3MASSIV 并分析了其与强基线下其他现代流行数据集的不同之处,并展示了如何使用 3MASSIV 的社交媒体内容在语义理解任务和跨语言分析中应用。
Mar, 2022
通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM,本研究表明 GPT-4o 模型超过了最佳开源模型 41.42%,在 Event-Bench 上表现出 53.33 的整体准确率,优于最先进的开源模型和 GPT-4V。
Jun, 2024
我们提出了一个新的大规模多语言视频描述数据集 VATEX, 其中包含超过 41,250 个视频和 825,000 条英文和中文字幕,拥有超过 206,000 个英中平行翻译对。我们还基于 VATEX 引入了两项视频与语言研究任务:(1)多语言视频字幕生成,旨在使用紧凑的统一字幕模型以各种语言描述视频,(2)视频引导机器翻译,使用视频信息作为附加时空上下文将源语言描述翻译成目标语言。VATEX 数据集的广泛实验表明,该统一多语言模型不仅可以更高效地生成视频的英文和中文描述,而且可以提供比单语言模型更好的性能。此外,我们还证明,时空视频上下文可以有效地用于对齐源语言和目标语言,从而帮助机器翻译。最后,我们讨论了使用 VATEX 进行其他视频与语言研究的潜力。
Apr, 2019
本研究介绍了一个用于视频事件定位的多模态查询基准(ICQ),该基准以多模态语义查询为输入,包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估,我们提出了 3 种适应方法,并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。
Jun, 2024
本文介绍了 InternVid,一个大规模的以视频为中心的多模态数据集,旨在学习强大且可转移的视频 - 文本编码,在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集,并使用大型语言模型,展示了其在学习大规模视频 - 语言编码中的效力。
Jul, 2023
本研究提出了多模态事件关系的新任务,并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法,为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。
Jun, 2022