VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

Nov, 2022

VATLM：基于联合掩码预测的视听文字预训练方法，用于语音表示学习

VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for Speech Representation Learning

Qiushi Zhu, Long Zhou, Ziqiang Zhang, Shujie Liu, Binxing Jiao...

TL;DR本文采用统一的跨模态表示学习框架 VATLM，通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入，以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中，优化下游任务的结果表明，VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型，并且能够将不同的语言类型对齐到同一个语义空间。

Abstract

Although speech is a simple and effective way for humans to communicate with the outside world, a more realistic speech interaction contains multimodal information, e.g., vision, text. How to design a unified framework to integrate different modal information and leverage different res

speech interaction multimodal information cross-modal representation learning vatlm audio-visual speech recognition

发现论文，激发创造

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

统一的视频 - 语言联合预训练与同步音频

我们提出了一种增强的视频语言预训练框架，使用同步音频，可以在统一的自监督转换器中学习三模态表示。我们的模型在仅使用 90 万条数据进行预训练的情况下，取得了相对于现有基准的改进结果，并通过定性可视化展示了其在学习有区分性的视觉文本表示方面的优越性。

May, 2024

VLM: 任务无关的视频语言模型预训练，用于视频理解

提供了一种简化、任务无关的多模态预训练方法，可以接受视频或文本输入，或两者皆可用于各种端任务。实验结果表明，在多种任务中表现出比以前的方法更强的性能，通常优于任务特定的预训练。

May, 2021

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

多模态表示学习的遮蔽视觉和语言建模

本文研究如何使用掩码信号建模来实现视觉和语言（V + L）表示学习，提出了联合掩码视觉和语言建模的方法，通过不同的模态互相重构，隐式地学习语言标记和图像补丁的交叉模态对齐，并在各种 V + L 任务中实现了最先进的性能。

Aug, 2022

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

LayoutLMv3: 统一文本和图片遮盖的文档 AI 预训练

本文提出的 LayoutLMv3 是一种用于文档人工智能的多模态 Transformer 的预训练方法，用于统一文本和图像遮蔽，并通过预测文本单词的对应图像块是否被遮蔽的方式进行跨模态对齐。实验结果表明，LayoutLMv3 不仅在文本中心任务中实现了最先进的性能，而且在以图像为中心的任务中也是如此。

Apr, 2022

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

TVLT: 无文本的视觉语言变换器

该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT)，采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息，用 mask-autoencoding 和对比建模实现视频与音频的对齐，并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现，推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。

Sep, 2022