多语种事件视频与对齐自然文本

Jul, 2023

MultiVENT: Multilingual Videos of Events with Aligned Natural Text

Kate Sanders, David Etter, Reno Kriz, Benjamin Van Durme

TL;DR构建了 MultiVENT 数据集，该数据集包括多语言、以事件为中心的视频，用于分析在线新闻视频的状态，并利用其构建强大、事实准确的模型，并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。

Abstract

Everyday news coverage has shifted from traditional broadcasts towards a wide range of presentation formats such as first-hand, unedited video footage. Datasets that reflect the diverse array of multimodal,

news coverage multimodal multilingual news video datasets video retrieval

发现论文，激发创造

多模态新闻理解与专业标注视频

通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Jan, 2024

MSVD-Indonesian: 一种用于印度尼西亚多模式视频文本任务的基准

本文介绍了开发第一个印象尼西亚视频文本数据集的方法，并使用交叉语言迁移学习来改进三个任务的表现，即文本到视频检索，视频到文本检索和视频字幕生成。

Jun, 2023

视频和文章的联合多媒体事件抽取

本篇论文介绍了一种新的视频多媒体事件提取（Video M2E2）任务以及两个创新组件，用于构建该任务的第一个系统。该方法能够从视频和文本文档中提取结构化事件信息，未来将会公开发布包括 860 对视频 - 文章对的新基准。实验结果证明了该方法在新基准数据集上的有效性。

Sep, 2021

3MASSIV：社交媒体短视频的多语言、多模态和多层面数据集

3MASSIV 是一个多语言、多模态、多方面的专家标注数据集，由来自 Moj 短视频社交媒体平台的多样化短视频和 11 种不同语言的 100K 未标注视频组成，通过其独特的音频和视觉格式表达了流行的短视频趋势，介绍了 3MASSIV 并分析了其与强基线下其他现代流行数据集的不同之处，并展示了如何使用 3MASSIV 的社交媒体内容在语义理解任务和跨语言分析中应用。

Mar, 2022

走向面向事件的长视频理解

通过引入基于现有数据集和人类注释的面向事件的长视频理解基准测试集 Event-Bench 以及使用合并的、事件密集型视频指令来增强视频 MLLMs 的低成本方法 VIM，本研究表明 GPT-4o 模型超过了最佳开源模型 41.42％，在 Event-Bench 上表现出 53.33 的整体准确率，优于最先进的开源模型和 GPT-4V。

Jun, 2024

VATEX：一个大规模、高质量、多语种的视频与语言研究数据集

我们提出了一个新的大规模多语言视频描述数据集 VATEX, 其中包含超过 41,250 个视频和 825,000 条英文和中文字幕，拥有超过 206,000 个英中平行翻译对。我们还基于 VATEX 引入了两项视频与语言研究任务：（1）多语言视频字幕生成，旨在使用紧凑的统一字幕模型以各种语言描述视频，（2）视频引导机器翻译，使用视频信息作为附加时空上下文将源语言描述翻译成目标语言。VATEX 数据集的广泛实验表明，该统一多语言模型不仅可以更高效地生成视频的英文和中文描述，而且可以提供比单语言模型更好的性能。此外，我们还证明，时空视频上下文可以有效地用于对齐源语言和目标语言，从而帮助机器翻译。最后，我们讨论了使用 VATEX 进行其他视频与语言研究的潜力。

Apr, 2019

多语种多样性增强视觉 - 语言表示

使用多语言数据集进行预训练可以提高在多个视觉任务中的性能，包括对非英语数据的使用，以及增加地理多样性任务中非洲地区的表现。

May, 2024

用多模态查询在视频中定位事件

本研究介绍了一个用于视频事件定位的多模态查询基准（ICQ），该基准以多模态语义查询为输入，包括一个描述事件的参考图像和一个用于调整图像语义的修正文本。通过对 4 种风格的参考图像和 5 种类型的修正文本进行系统评估，我们提出了 3 种适应方法，并评估了 10 种尺度的现有模型。我们认为这个基准是探索视频事件定位中多模态查询的初步步骤。

Jun, 2024

InternVid：大规模视频文本数据集，用于多模式理解和生成

本文介绍了 InternVid，一个大规模的以视频为中心的多模态数据集，旨在学习强大且可转移的视频 - 文本编码，在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集，并使用大型语言模型，展示了其在学习大规模视频 - 语言编码中的效力。

Jul, 2023

多模态事件图：走向多模态世界的事件中心理解

本研究提出了多模态事件关系的新任务，并开发了一个大规模数据集和一种基于外部知识库的弱监督多模态方法，为人工智能系统实现媒体理解和跨媒体事件关系建立提供了支持。

Jun, 2022