X-VILA: 大型语言模型的跨模态对齐

May, 2024

X-VILA: 大型语言模型的跨模态对齐

X-VILA: Cross-Modality Alignment for Large Language Model

Hanrong Ye, De-An Huang, Yao Lu, Zhiding Yu, Wei Ping...

TL;DRX-VILA 是一种全模式模型，通过结合图像、视频和音频模态来扩展大型语言模型（LLMs）的能力，实现跨模态的理解、推理和生成。在此基础上，通过一个有效的交错的任意 - 任意模态指令跟踪数据集以及一种视觉嵌入高速公路模块，解决了当前交叉模态对齐方法中的视觉信息丢失问题，从而在任意 - 任意模态对话方面表现出了比以前方法更高的效率。

Abstract

We introduce x-vila, an omni-modality model designed to extend the capabilities of large language models (llms) by incorporating image, vi

x-vila omni-modality model llms cross-modality alignment visual alignment mechanism

发现论文，激发创造

X-InstructBLIP: 一种将 X-Modal 指导感知表示与 LLMs 和新兴的跨模态推理对齐的框架

我们在这篇论文中介绍了一个简单而有效的跨模态框架，利用现有的大型语言模型，在 2D 视觉推理任务中通过将视觉编码器与最先进的语言模型对齐，展现了通用功能。我们通过收集高质量的调整数据，自动和可扩展地收集音频和 3D 方面 QA 样本，以便实现指导模态的微调。通过利用指导感知表达，我们的模型在无需大规模特定模态的预训练或自定义的情况下，表现出与领先模型相当的性能。此外，我们的方法展现出在两个或更多输入模态中进行跨模态推理的能力，尽管每个模态投影都是单独训练的。为了研究模型的跨模态能力，我们提出了一个新颖的鉴别跨模态推理（DisCRn）评估任务，包括 9K 个音频 - 视频 QA 样本和 28K 个图像 - 3D QA 样本，要求模型在不同的输入模态之间进行鉴别性推理。

Nov, 2023

X-LLaVA: 优化双语大型视觉语言对齐

我们提出了两种解决多模态模型创建训练数据方面的问题的有效方法，并基于这些方法构建了一个 91K 的英 - 韩 - 中多语言多模态训练数据集，并开发了一种双语多模态模型，在韩语和英语方面表现出优秀的性能，超过了现有方法。

Mar, 2024

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

利用大规模视频转录进展高分辨率视频语言表示

本文提出了一种高分辨率和多样化的视频 - 语言预训练模型（HD-VILA），它利用一个混合 Transformer 学习丰富的时空特征以及文本特征的交互，取得了 10 个 VL 理解任务和 2 个文本到视觉生成任务的最新结果

Nov, 2021

VILA：关于视觉语言模型的预训练

通过逐步可控的比较，我们研究了增强大语言模型 (LLM) 向视觉语言模型 (VLM) 扩展的 VLM 预训练过程的设计选择。我们通过增强的预训练方法构建了 VILA，一系列视觉语言模型，无需额外的修饰即可在主要基准测试中始终优于当前最先进的模型。多模态预训练还有助于揭示 VILA 的吸引人属性，包括多图像推理、增强的上下文学习和更好的世界知识。

Dec, 2023

VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

本研究提出了 VioLA 模型，它是一个单自回归 Transformer 解码器网络，通过多任务学习框架，将涉及语音和文本的各种跨模态任务统一为条件编解码器语言模型任务。该模型通过离线神经编解码器将所有语音话语转换为离散标记，进而将所有任务转换为基于标记的序列转换问题，进而自然地使用一个条件语言模型处理。研究表明，VioLA 模型可良好地支持单模和跨模任务，并且解码器模型优于强基线性能。

May, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023

从文本角度探究跨模态语义对齐能力

本文提出了一种基于图像字幕生成的新型探测方法，用于研究视觉语言预训练模型中跨模态语义对齐的内部机制，发现 VLP 模型对齐的主要是对象和视觉词，忽略了全局语义，还存在固定的句子模式，无视语法和流畅性等问题。

Oct, 2022

通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024