统一的视频 - 语言联合预训练与同步音频

May, 2024

统一的视频 - 语言联合预训练与同步音频

Unified Video-Language Pre-training with Synchronized Audio

Shentong Mo, Haofan Wang, Huaxia Li, Xu Tang

TL;DR我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

Abstract

video-language pre-training is a typical and challenging problem that aims at learning visual and textual representations from large-scale data in a self-supervised way. Existing pre-training approaches either captured the correspondence of image-text pairs or utilized temporal orderin

video-language pre-training synchronized audio self-supervised transformer modality-aware features discriminative visual-textual representations

发现论文，激发创造

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Nov, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

大规模无监督音频预训练用于视频到语音合成

该论文提出通过在超过 3,500 小时的 24kHz 音频数据上训练 encoder-decoder 模型，用已经预训练好的解码器初始化视频到语音合成任务的音频解码器，从而改进生成器的质量和重构的语音质量。

Jun, 2023

Video-LLaMA: 一种面向视频理解的指令优化的音视频语言模型

Video-LLaMA 是一种多模态框架，通过将预训练的视觉和音频编码器与预训练的大型语言模型结合，实现对视频内容的理解，具有捕捉视觉场景中的时间变化和整合音频 - 视觉信号等优势，因此被视为具有潜力的音视频 AI 助手原型。

Jun, 2023

自监督同步下的音频和视频模型协同学习

该研究通过自监督的时间同步学习模型实现音频和视频分析的目的，模型能够在没有微调的情况下有效地识别出时序同步的音频 - 视频配对，并提供了一种非常有效的初始化方式以改善基于视频的动作识别模型的准确性。

Jun, 2018

来自视频的级联多语言视听学习

这篇论文探讨了自监督学习模型在多语言环境下的应用，通过级联方法，将英语训练好的模型应用于日语视频和图片的字幕，取得了最新颖的表现。

Nov, 2021

基于语言引导的三模态一致性音视频源分离

利用自监督学习方法，通过自然语言查询基于无标注视频和音频对进行音频源分离的学习，以学习将声音发射对象的语言描述与其视觉特征和相应的音频波形组件相结合，其方法通过视觉 - 语言基础模型和两种新的损失函数提供伪目标监督，并在推理阶段能够分离声音，即使没有目标检测器或文本标签。

Mar, 2023

跨语言视觉言语表征学习

本文探讨了跨语言自监督视觉表示学习，使用 Raw Audio-Visual Speech Encoders（RAVEn）框架对无标注的多语言数据进行预训练，然后用标记的转录 fine-tune 视觉模型，实验证明多语言模型优于单语言模型，多语言胜过英文预训练，使用相似的语言效果更好，而无标签的语言进行精调与使用目标语言在预训练集上进行竞争。

Mar, 2023

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023