SC-Tune：解锁大型视觉语言模型中的自洽参考理解

CVPRMar, 2024

SC-Tune：解锁大型视觉语言模型中的自洽参考理解

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

Tongtian Yue, Jie Cheng, Longteng Guo, Xingyuan Dai, Zijia Zhao...

TL;DR我们介绍了 LVLM 的自一致能力和新颖的自一致调整范式 (SC-Tune)，证明了 SC-Tune 显著提升了目标级别视觉语言基准的性能，并在图像级视觉语言基准上保持了竞争力或改进的性能。

Abstract

Recent trends in large vision language models (LVLMs) research have been increasingly focusing on advancing beyond general image understanding towards more nuanced, object-level referential comprehension. In this paper, we present and delve into the →

large vision language models self-consistency capability fine-tuning paradigm sc-tune object-level vision-language benchmarks

发现论文，激发创造

利用图像理解的自我训练增强大型视觉语言模型

采用自我训练方法提高大型视觉语言模型在图像理解方面的能力，通过自动生成偏好图像描述来构建图像理解的偏好数据集，利用少量的现有数据进行自我改进，验证了其在七个不同基准测试中的有效性和潜力。

May, 2024

揭开大型视觉语言模型的一致性之纱

通过多模态基准测试工具 ConBench，本研究首次揭示了大型视觉和语言模型在解决方案空间不同的提示下的答案一致性问题，并通过基于触发器的诊断优化方法，间接提高了模型的性能，以增强其描述能力。

May, 2024

校准的自我奖励视觉语言模型

大规模视觉 - 语言模型通过整合预先训练好的大型语言模型和视觉模型，通过自我奖励方法中引入视觉约束以减少幻觉，提高性能，在十个基准测试和任务中取得了 7.62% 的显著改进。

May, 2024

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

通过自洽解释改进的视觉对准

使用视觉与语言模型、视觉解释方法和近义词进行微调，目标是提高定位能力和对象高亮质量。在多个数据集中，通过该方法相较于基线方法和之前的工作获得了显著的改进。

Dec, 2023

开放式生成的自我一致性

本文介绍了一个新的方法，通过扩展自一致性的应用范围并使用轻量级无参数相似函数，改善了大规模预训练语言模型生成的质量和一致性，包括代码生成、自动格式化和文本摘要任务。

Jul, 2023

C3L: 通过对比学习生成与内容相关的视觉语言指导调参数据

通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性，并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。

May, 2024

大型语言模型生成的通用自一致性

利用大型语言模型采样的多个推理路径，结合自我一致性和链式思维提示，在各种具有挑战性的任务上取得了显著的性能提升。本研究提出了一种通用的自我一致性方法（USC），它利用语言模型自身从多个候选答案中选择最一致的答案。我们在包括数学推理、代码生成、长篇摘要和开放式问答在内的多个数据集上评估了 USC 的性能。在原来的自我一致性方法不适用的开放式生成任务中，USC 有效利用多个样本并提高了性能。对于数学推理，USC 在不要求答案格式相似的情况下，达到了标准自我一致性的性能。最后，在无法访问执行结果的情况下，USC 也达到了代码生成中基于执行的投票性能。

Nov, 2023

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023