MSVD-Indonesian: 一种用于印度尼西亚多模式视频文本任务的基准

Jun, 2023

MSVD-Indonesian: 一种用于印度尼西亚多模式视频文本任务的基准

MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian

Willy Fitra Hendria

TL;DR本文介绍了开发第一个印象尼西亚视频文本数据集的方法，并使用交叉语言迁移学习来改进三个任务的表现，即文本到视频检索，视频到文本检索和视频字幕生成。

Abstract

multimodal learning on video and text data has been receiving growing attention from many researchers in various research tasks, including text-to-video retrieval, video-to-text retrieval, and video captioning. A

multimodal learning indonesian video-text dataset neural network models cross-lingual transfer learning text-to-video retrieval

发现论文，激发创造

走向全面的语言 - 视频表示：语言模型增强的 MSR-Video 到文本数据集

通过自动增强语言 - 视频数据集和多方位视频字幕生成方法，提高语言 - 视频表示能力，并通过多模态检索模型验证其有效性。

Jun, 2024

机器翻译文本的多语言多模态学习

研究使用机器翻译英文多模态数据作为缺少多语言数据的高质量数据是否有效，并提出了 TD-MML 框架并在 IGLUE 基准测试中展示了它的有效性。

Oct, 2022

MDMMT：用于视频检索的多领域多模态 Transformer

通过对多个视频字幕数据集的正确组合，我们在 MSRVTT 和 LSMDC 基准测试上提出了一种新的文本到视频检索任务的最新技术，成果展示了在无微调的情况下，单一模型在两个数据集上实现了最先进的结果。

Mar, 2021

多语种事件视频与对齐自然文本

构建了 MultiVENT 数据集，该数据集包括多语言、以事件为中心的视频，用于分析在线新闻视频的状态，并利用其构建强大、事实准确的模型，并提供了一种用于信息检索的复杂、多语言视频检索模型作为基准。

Jul, 2023

InternVid：大规模视频文本数据集，用于多模式理解和生成

本文介绍了 InternVid，一个大规模的以视频为中心的多模态数据集，旨在学习强大且可转移的视频 - 文本编码，在多模态理解和生成方面进行研究。我们自动构建了这个高质量的视频 - 文本数据集，并使用大型语言模型，展示了其在学习大规模视频 - 语言编码中的效力。

Jul, 2023

一个带有阅读理解的大型跨模态视频检索数据集

提出了一种新的跨模态视频检索数据集 TextVR，它包含了八个场景领域的 10.5k 个视频和 42.2k 个查询语句，并介绍了一种统一的跨模态模型，有效地将文本和视觉语义信息融合来实现视频检索任务。该数据集和我们提出的跨模态检索方法为视频和语言研究领域提供了许多新的技术挑战和洞见。

May, 2023

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集 BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高 NMT 模型的性能并帮助消除歧义。

May, 2023

利用用户评论提升视频文字检索

本文介绍了一个包含视频、标题和评论的新数据集，并 presents 了一种基于 attention-based 机制的方法，该方法可以让模型从用户评论等有时不相关的数据中学习，并通过使用评论来学习更好的、更具上下文的图像、视频和音频表示。

Oct, 2022

用于视频字幕的多模态记忆建模

本文提出了一种多模态记忆模型 (M3)，利用视觉和文本共享的记忆来建模长期的视觉 - 文本依赖关系并进一步引导全局的视觉注意力，该方法在公开基准数据集上的实验证明，相比于最先进的方法，本文提出的方法在 BLEU 和 METEOR 方面表现较好。

Nov, 2016

MVBench：全面多模式视频理解基准测试

通过引入全面的多模式视频理解基准 (MVBench)，该研究提出了一种新的静态到动态方法，将静态任务转化为动态任务，评估多模式大型语言模型 (MLLMs) 的时间理解能力，并且开发了一种强大的视频 MLLM 基准模型 VideoChat2，检验结果显示 VideoChat2 在 MVBench 上的性能超过其他领先模型 15% 以上。

Nov, 2023