VAST: 视听字幕文本全模态基础模型与数据集

May, 2023

VAST: 视听字幕文本全模态基础模型与数据集

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun...

TL;DR本文利用自动生成的大规模全模态视频字幕数据集VAST-27M来探索多模态视频轨道（包括视觉、音频和字幕）与文本之间的联系，训练出了一种全模态视频-文本初始模型VAST，该模型可以感知和处理视频中的多种模式，并且在各种跨模态基准测试中获得了22项新的最先进结果。

Abstract

Vision and text have been fully explored in contemporary video-text foundational models, while other modalities such as audio and subtitles in videos have not received sufficient attention. In this paper, we resort to establish connections between multi-modality video tracks, including

发现论文，激发创造

可解释的视听视频字幕生成尝试

本论文介绍了一个多模态卷积神经网络视频字幕框架，通过引入模态感知模块，探索了视听交互对视频理解的影响，并证明该可解释模型在情况选择时取得了可比较的性能。

Dec, 2018

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频-语言预训练模型（HD-VILA），它利用一个混合Transformer学习丰富的时空特征以及文本特征的交互，取得了10个VL理解任务和2个文本到视觉生成任务的最新结果

Nov, 2021

VALOR: 视听语言全感知预训练模型和数据集

本文提出了一种用于多模态理解和生成的Vision-Audio-Language Omni-peRception预训练模型(VALOR)，该模型与先前广泛研究的视觉语言预训练模型不同，以端对端的方式共同建模视觉、音频和语言之间的关系，包含三种单模态表示的编码器和多模态有条件文本生成的解码器，通过Multimodal Grouping Alignment (MGA)和Multimodal Grouping Captioning (MGC)两个预训练任务，可以学习在多种输入模态下（例如视觉-语言、音频-语言、音频视觉-语言）学习强大的多模态相关性，并在各种下游任务（如检索、字幕生成和问答）取得了新的最先进表现。

Apr, 2023

BigVideo：一份大规模视频字幕翻译数据集，用于多模式机器翻译

本研究提出了一个大规模的视频字幕翻译数据集BigVideo，用于促进多模态机器翻译的研究；在跨模态编码器中引入了对比学习方法，结果表明视觉信息能够显著提高NMT模型的性能并帮助消除歧义。

May, 2023

探索音频在视频字幕中的作用

本研究提出了一种音视频框架，利用原始音频信号学习，通过 Modality Balanced Pre-training 优化模型，且采用局部和全局融合机制进行信息交换，以提高视频字幕生成的性能。

Jun, 2023

音视频LLM用于视频理解

该论文介绍了一种名为Audio-Visual LLM的多模态大型语言模型，它通过同时接收视觉和听觉输入来进行综合视频理解。该模型的关键设计是模态增强训练，它通过集成专门设计的模态特定标记来有选择地激活适当的视觉和/或听觉编码器。此机制对于实现端到端的多模态视频数据联合训练至关重要。实验证明，Audio-Visual LLM在各种视频理解任务中取得了令人印象深刻的零样本结果。

Dec, 2023

数百万视频上的视觉语言模型蒸馏

本研究利用合成的教学数据对图像语言基准进行微调，生成高质量的视频标题，构建适应视频和语言的模型，并在多个视频-语言基准上取得了显著结果。

Jan, 2024

Panda-70M：使用多个跨模态教师为70M视频加上字幕

通过多模态输入构建高质量视频数据集，使用检索模型选择最佳字幕注释，名为Panda-70M，训练模型在视频字幕生成、视频与文本检索等任务上具有优异性能。

Feb, 2024

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

Vript: 一部视频胜过千言万语

通过使用Vript数据集，我们提出了Vriptor模型，它是一个功能强大的视频字幕生成模型，能生成密集详细的长视频字幕；此外，我们还介绍了Vript-Hard，一个包含三个更具挑战性视频理解任务的基准测试集。

Jun, 2024