利用图像理解的自我训练增强大型视觉语言模型

May, 2024

利用图像理解的自我训练增强大型视觉语言模型

Enhancing Large Vision Language Models with Self-Training on Image Comprehension

Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen...

TL;DR采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。

Abstract

large vision language models (LVLMs) integrate large language models (LLMs) with pre-trained vision encoders, thereby activating the perception capability of the model to understand image inputs for different queries and conduct subsequent reasoning. Improving this capability requires

large vision language models self-training on image comprehension image descriptions visual perception supervised fine-tuning

发现论文，激发创造

通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

大规模视觉语言模型的视域内学习

通过引入一种新颖的视觉上下文学习方法（VICL），包括视觉演示检索、目标导向图像摘要和目标导向演示组合，解决了大型视觉语言模型（LVLMs）中上下文学习的挑战，提高了效果，并且进一步调查了演示文本长度和位置对 LVLM 的影响，展示了 ICL 复位特定模型知识的潜力。

Feb, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

冻结大型语言模型在视觉信号理解中的应用

我们研究了大型语言模型（LLM）在没有对多模态数据集进行微调的情况下，直接理解视觉信号的潜力。我们提出了一种视觉到语言的分词器（V2T Tokenizer），通过编码器 - 解码器、LLM 词汇表和 CLIP 模型将图像转换成 “外语”。通过这种创新的图像编码方式，LLM 不仅具备了视觉理解能力，还能以自回归方式进行图像去噪和恢复，关键是不需要任何微调。我们进行了严格的实验证实了我们的方法，包括图像识别、图像字幕、视觉问题回答等理解任务，以及修复任务，如修复、扩展、去模糊和位移复原。

Mar, 2024

自我想象：使用多模态模型进行高效单模态推理

使用 Vision-Language Models 和 HTML 生成结构化问题的图像化表示，并使用相同的 Vision-Language Model 回答问题。该方法在数学任务和推理任务中提高了性能。

Jan, 2024

通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

通过最大化因果注意模型的输入和输出之间的相互信息，我们提出了一种名为 Latent Compression Learning（LCL）的视觉模型预训练方法，以有效利用交叉图像 - 文本数据，实现对齐图像 - 文本数据进行预训练并生成强大的视觉表示。

Jun, 2024

利用自我训练大型语言模型改进视觉程序合成与视觉强化

利用交互式经验反馈改进大规模语言模型的视觉程序合成能力，通过利用现有的视觉语言任务注释为该任务创造一个粗略的奖励信号，将语言模型作为一种策略，并应用增强的自训练，显示出在对象检测、复合视觉问答和图像 - 文本检索方面，经过自训练的语言模型在每种情况下优于或与量级更大的少样本冻结的语言模型相媲美。

Apr, 2024

SC-Tune：解锁大型视觉语言模型中的自洽参考理解

我们介绍了 LVLM 的自一致能力和新颖的自一致调整范式 (SC-Tune)，证明了 SC-Tune 显著提升了目标级别视觉语言基准的性能，并在图像级视觉语言基准上保持了竞争力或改进的性能。

Mar, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024