VIOLIN：一个大规模的视频和语言推理数据集

CVPRMar, 2020

VIOLIN：一个大规模的视频和语言推理数据集

VIOLIN: A Large-Scale Dataset for Video-and-Language Inference

Jingzhou Liu, Wenhu Chen, Yu Cheng, Zhe Gan, Licheng Yu...

TL;DR本文介绍了一个新的任务 —— 视频与语言推理，用于联合多模态理解视频和文本，提出了一个名为 “Violin” 的大规模数据集并对其进行了分析，并对该任务进行了广泛评估。

Abstract

We introduce a new task, video-and-language inference, for joint multimodal understanding of video and text. Given a video clip with aligned subtitles as premise, paired with a natural language hypothesis based on the video content, a model needs to infer whether the hypothesis is enta

video-and-language inference multimodal understanding dataset sophisticated reasoning evaluation

发现论文，激发创造

InternVid：大规模视频文本数据集，用于多模式理解和生成

本文介绍了 InternVid，一个大规模的以视频为中心的多模态数据集，旨在学习强大且可转移的视频 - 文本编码，在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集，并使用大型语言模型，展示了其在学习大规模视频 - 语言编码中的效力。

Jul, 2023

使用人类动作构建视频语言数据集进行多模态逻辑推理

介绍了一个新的包含人类行为的视频和语言数据集，该数据集专注于描述动态人类动作的故事意图和局限性表达式，该数据集预计对评估包括否定和量化在内的复杂语句与视频之间的多模态推理系统非常有用。

Jun, 2021

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集 BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。

May, 2023

多模态新闻理解与专业标注视频

通过对 ReutersViLNews 数据集进行大规模分析，我们发现新闻导向的视频对当前视频语言理解算法构成了重大挑战，并提供了未来解决 ReutersViLNews 数据集的方法。

Jan, 2024

多媒体社交分析的数据集和基准测试

该论文介绍了一个通过从社交媒体网站获取包含多个成对图像 / 视频和文本的帖子以及包含图像 / 视频和 / 或文本的评论树来实现多模态学习的新的可公开获取的数据集，并提供了基线性能分析，适用于图像字幕、情感分析和预训练模型等多项任务。

Jun, 2020

ViANLI: 针对越南语的对抗自然语言推理

通过预训练模型在标注过程中使用，本文介绍了对自然语言推理进行研究的越南 NLVS 数据集 ViANLI，并证明基于该数据集训练的模型显著提高了其他越南自然语言推理数据集的结果。

Jun, 2024

ViLCo-Bench: 视频语言连续学习基准测试

本研究提出了第一个专门用于评估在各种视频文本任务中持续学习模型的基准数据集 ViLCo-Bench，并引入了一种新颖的内存高效框架，该框架结合了自监督学习，模拟长期和短期记忆效应，在面对长视频片段的内存复杂性、开放式查询的自然语言复杂性以及文本 - 视频不匹配等挑战时表现出色。

Jun, 2024

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频 - 语言基准上取得了显著结果。

Jan, 2024

电影故事多语种概要：用于故事理解的数据集

构建大规模多语言视频故事数据集 M-SYMON，包含 13166 个影片摘要视频和 101.5 小时视频的精细视频文本对应注释。使用 SyMoN 人工标注数据训练的结果，在剪辑准确率和句子 IoU 得分上超过 SOTA 方法分别达到 15.7 和 16.2 个百分点，证明了注释的有效性。同时，我们提供了六种具有不同多语言训练策略的基线方法，比较它们在单语内和跨语言设置中的性能，展示了多语言视频文本对齐的挑战。

Jun, 2024

通过多模态大型语言模型实现以语言为驱动的视频修复

我们介绍了一种新的任务 - 语言驱动的视频修复，它使用自然语言指令来指导修复过程。我们提出了 Remove Objects from Videos by Instructions (ROVI) 数据集，其中包含 5,650 个视频和 9,091 个修复结果，以支持该任务的训练和评估。我们还提出了一种新的基于扩散的语言驱动视频修复框架，这是该任务的第一个端到端基线，有效地整合了多模态大规模语言模型，以理解和执行复杂的基于语言的修复请求。我们详细的结果展示了该数据集的多样性和该模型在各种语言指导下的修复场景中的有效性。我们将公开发布数据集、代码和模型。

Jan, 2024