VALOR: 视听语言全感知预训练模型和数据集

Apr, 2023

VALOR: 视听语言全感知预训练模型和数据集

VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang...

TL;DR本文提出了一种用于多模态理解和生成的Vision-Audio-Language Omni-peRception预训练模型(VALOR)，该模型与先前广泛研究的视觉语言预训练模型不同，以端对端的方式共同建模视觉、音频和语言之间的关系，包含三种单模态表示的编码器和多模态有条件文本生成的解码器，通过Multimodal Grouping Alignment (MGA)和Multimodal Grouping Captioning (MGC)两个预训练任务，可以学习在多种输入模态下（例如视觉-语言、音频-语言、音频视觉-语言）学习强大的多模态相关性，并在各种下游任务（如检索、字幕生成和问答）取得了新的最先进表现。

Abstract

In this paper, we propose a vision-audio-language Omni-peRception pretr

发现论文，激发创造

OPT: Omni-Perception Pre-Trainer 用于跨模态理解和生成

本文提出了一种跨模态的全视觉感知预训练器，其采用了多任务预训练策略从不同数据粒度学习了对图片、文字和音频的跨模态理解与生成。

Jul, 2021

受限资源下的对比视觉-语言预训练

本文提出了一种可在有限资源下进行双编码器多模态表示对齐的新方法，并证明该算法在大规模数据上的有效性。

Dec, 2021

MVPTR: 多阶段学习的视觉语言预训练中的多级语义对齐

本文提出了一种基于多层语义对齐的视觉语言预训练（MVPTR）方法，通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示，强调多模态、多层次的学习能够协同促进表示学习。

Jan, 2022

视觉-语言智能：任务、表示学习与大模型

这篇论文从时间的角度对视觉语言智能进行了全面的调研, 总结了三个时期的发展, 包括特定任务方法, 视觉-语言预训练方法和通过大规模弱标签数据增强的更大模型, 并讨论了未来的发展趋势.

Mar, 2022

视觉语言预训练模型：一项调查

本文主要介绍了预训练模型在计算机视觉和自然语言处理中所取得的巨大成功，着重介绍了视觉语言预训练模型(VLPM)的重要进展及其结构、预训练和微调策略，并提出了未来三个方向的研究建议。

Apr, 2022

多模态表示学习：演进、预训练及其应用的综述

本综述论文全面介绍了深度学习多模态体系结构的演变和增强，以应对文本、视觉和音频特征的多样化跨模态和现代多模态任务：包括最新的任务特定的深度学习方法，多模态预训练目标，以及从最先进的预训练多模态方法到统一体系结构。本文结合具体数据集和案例分析展示多模态学习的挑战、间隔和潜在研究主题。

Feb, 2023

VAST: 视听字幕文本全模态基础模型与数据集

本文利用自动生成的大规模全模态视频字幕数据集VAST-27M来探索多模态视频轨道（包括视觉、音频和字幕）与文本之间的联系，训练出了一种全模态视频-文本初始模型VAST，该模型可以感知和处理视频中的多种模式，并且在各种跨模态基准测试中获得了22项新的最先进结果。

May, 2023

多模机器翻译的视觉语言预训练调查

通过调查文献并从多模机器翻译的角度审视语言和视觉预训练的通用架构和预训练目标以及数据集，探索大型预训练模型在多模机器翻译任务中的应用。

Jun, 2023

探索视觉-语言模型的边界：当前方法和未来方向的综述

综述了大语言模型与视觉语言模型的最新进展，分析了它们在视觉能力、多模态输入和基准数据集方面的优势和局限性，并提出未来研究的潜在方向。

Feb, 2024

OmniBench：迈向通用全语言模型的未来

本研究针对多模态大型语言模型在同时处理和推理多种模态能力不足的问题，提出了一个新基准OmniBench。该基准通过高质量的人类注释，评估模型在视觉、音频和文本输入上的识别、理解和推理能力，发现很多全语言模型在三模态上下文中的指令遵循和推理能力存在显著限制，推动未来研究加强三模态集成技术和训练策略的开发。

Sep, 2024