通过模态集成率解码大型视觉语言模型中的跨模态对齐

Oct, 2024

通过模态集成率解码大型视觉语言模型中的跨模态对齐

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao...

TL;DR本研究针对大型视觉语言模型（LVLMs）在多模态预训练阶段缺乏有效评估指标的问题，提出了模态集成率（MIR）这一新颖的衡量标准。MIR有效、稳健且具有广泛适用性，能够准确反映预训练质量，并对后续的模型表现有积极影响。实验结果表明，MIR不仅可以优化训练数据选择和策略，还能为未来跨模态对齐的研究提供指导。

Abstract

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal Pre-training Quality of Large Vision Language Models (LVLMs). Large-scale pre-training play

发现论文，激发创造

MVPTR: 多阶段学习的视觉语言预训练中的多级语义对齐

本文提出了一种基于多层语义对齐的视觉语言预训练（MVPTR）方法，通过内部多层次表示学习和不同粒度的跨模态语义对齐任务来学习概念表示，强调多模态、多层次的学习能够协同促进表示学习。

Jan, 2022

X$^2$-VLM：图像和语言任务的多功能预训练模型

这篇论文提出了一种名为 multi-grained vision language pre-training 的视觉语言联合预训练方法，它可以在多个粒度上学习视觉语言对齐。该论文还提出了一个名为 X$^2$-VLM 的预训练模型，它采用了模块化架构，可在图像文本任务和视频文本任务中实现最佳性能和模型规模间的良好平衡，并显示了其高可转移性，可以在任何语言或领域中使用。

Nov, 2022

CoVLR：协调跨模态一致性和内部模态结构的视觉语言检索

本论文提出了一种名为Coordinated Vision Language Retrieval(CoVLR)的新方法，利用meta-optimization来协调交叉模态对齐和单模态群集维护，从而同时确保交叉模态一致性和单模态结构，实验结果表明CoVLR方法能够提高单模态检索准确性，同时保留跨模态检索能力。

Apr, 2023

ReForm-Eval: 通过任务导向基准的统一重新制定评估大型视觉语言模型

通过ReForm-Eval基准测试，我们对LVLM的各种能力进行了全面的定量评估，发现并分析了现有LVLM的优点和缺点，并确定了潜在的影响因素。

Oct, 2023

大型视觉语言模型的评估是否正确？

通过研究评估作品，我们找出了两个主要问题：1）对于很多样本来说，视觉内容是不必要的；答案可以直接从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在意外的数据泄漏。为了解决这些问题，我们提出了MMStar，这是一个由人工精选的具有6个核心能力和18个详细方向的视觉不可或缺的多模态基准。我们在MMStar上评估了16个主要的LVLM，以评估它们的多模态能力，并通过提出的指标在7个基准上调查了它们的数据泄漏和实际多模态增益。

Mar, 2024

通过自我改进增强大型视觉语言模型中的视觉-语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的SIMA框架在14个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

X-VILA: 大型语言模型的跨模态对齐

X-VILA是一种全模式模型，通过结合图像、视频和音频模态来扩展大型语言模型（LLMs）的能力，实现跨模态的理解、推理和生成。在此基础上，通过一个有效的交错的任意-任意模态指令跟踪数据集以及一种视觉嵌入高速公路模块，解决了当前交叉模态对齐方法中的视觉信息丢失问题，从而在任意-任意模态对话方面表现出了比以前方法更高的效率。

May, 2024

多模态大语言模型中的视觉表示法则

本研究针对多模态大语言模型（MLLMs）中视觉表示的有效性提出了“视觉表示法则”，解决了跨模态对齐与视觉表示之间的关系问题。我们引入了跨模态对齐与对应性评分（AC评分），并通过实验证明该评分与模型表现呈线性关系。最重要的发现是，通过利用这种关系，我们能够仅训练最佳视觉表示，从而减少99.7%的计算成本。

Aug, 2024

EMMA：多模态大语言模型中的高效视觉对齐

本研究针对多模态大语言模型中视觉编码与语言模型融合不佳的问题，提出了一种轻量级的跨模态模块EMMA，实现高效的视觉与文本编码融合。研究显示，EMMA在多个任务中的性能提升可达9.3%，并显著增强了模型对幻觉现象的鲁棒性。

Oct, 2024

揭示与缓解视觉-语言模型的安全对齐退化

本研究解决了视觉-语言模型（VLMs）在整合视觉模块后安全对齐能力退化的问题，称为“安全对齐退化”。通过引入跨模态表征操控（CMRM）方法，研究显示该方法能显著恢复VLMs的安全对齐能力，同时保持其功能性。实证结果表明，该方法有效降低多模态输入的不安全率，具有重要的实际应用价值。

Oct, 2024