比较视觉指导优化

Jun, 2024

Comparison Visual Instruction Tuning

Wei Lin, Muhammad Jehanzeb Mirza, Sivan Doveh, Rogerio Feris, Raja Giryes...

TL;DR比较两个图像的共性和差异（CaD）是一种基本的人类能力，它是高级视觉推理和解释的基础，对于生成详细的和与上下文相关的描述、执行比较分析、新颖性检测以及基于视觉数据做出明智决策至关重要。然而，令人惊讶的是，最先进的人类视觉智能模型 - 大型多模态模型（LMMs）在这些基本概念上付出的关注甚少。我们开发并提出了一种新的两阶段方法 CaD-VI 来收集合成视觉指令，同时还提供了一个包含 349K 图像对的 CaD 指令数据集 CaD-Inst，使用 CaD-VI 收集。我们的方法显著提高了 LMMs 的 CaD 定位能力，通过对一系列相关任务的研究，性能优于目前技术水准 17.5%。它还可以与现有的仅差异指令数据集相互补充，自动针对性地优化这些资源，将它们在 CaD 调整上的有效性提高 10%。此外，我们还提出了一个包含 7.5K 开放式问答的评估基准，以评估 LMMs 的 CaD 理解能力。

Abstract

Comparing two images in terms of commonalities and differences (CaD) is a fundamental human capability that forms the basis of advanced visual reasoning and interpretation. It is essential for the generation of d

commonalities and differences visual reasoning large multimodal models cad-vi cad-inst

发现论文，激发创造

L2C: 描述视觉差异需要对个体进行语义理解

本文介绍了一种 Learning-to-Compare 模型，该模型能够理解两个图像之间的语义结构并学习描述每个图像，从而有效地进行图像比较和生成描述。使用该模型可以在 Birds-to-Words 数据集上实现比基准模型更好的性能，且同时在自动评估和人类评估中表现良好。

Feb, 2021

走向开放式的视觉质量比较

本研究提出了 Co-Instruct 方法来在开放式比较设置中进一步提升视觉质量比较，通过收集数据集和建立多图像比较的基准，证明了 Co-Instruct 在图像质量评估方面的优越性。

Feb, 2024

DiffMatch: 视觉 - 语言指导提升半监督变化检测器的性能

本文提出了一种基于视觉语言模型的半监督变化检测方法，名为 DiffMatch，通过利用 VLM 合成自由变化标签为无标签数据提供额外的监督信号，并通过辅助分割解码器明确分离双时相图像的语义表示，最终通过特征级对比损失引入度量感知监督，实验证明 DiffMatch 相较于基线方法 FixMatch 在变化检测上具有明显优势。

May, 2024

CIEM：用于更好的指导调整的对比指导评估方法

通过对大型视觉语言模型（LVLMs）进行研究，解决了现有视觉语言模型（VLMs）在下游应用中生成不正确感知信息的幻觉问题，利用对比指导评估方法（CIEM）和对比指导调整方法（CIT）产生高质量的问题 - 答案对和相应的理由，提高了模型的效果。

Sep, 2023

基于跨模态相似性的课程学习在图像描述中的应用

该研究提出一种基于跨模态相似性的难度度量方法，用于图像字幕生成模型的训练，并在 COCO 和 Flickr30k 数据集上验证了其有效性，证明其在难样本和未见数据上表现出较高的泛化能力。

Dec, 2022

基于预训练和对比学习的图像差异字幕生成

本文提出了一种基于自监督学习的图像差异描述任务的建模框架，并通过对比学习策略来提高视觉与语言的相关性，同时使用数据扩展方法利用多余的监督信息来拓宽有限的数据集，实验表明这种方法有效。

Feb, 2022

C3L: 通过对比学习生成与内容相关的视觉语言指导调参数据

通过对图像指令的相关性评分进行计算以增强 VLIT 数据与图像之间的内容相关性，并引入对比学习模块进一步提高大规模视觉语言模型的 VLIT 数据生成能力。

May, 2024

学习描述一对相似图片之间的差异

本文介绍了一项任务，即自动生成文本来描述两个相似图像之间的差异。我们通过众包获取了一组新的数据集，并提出了一种模型，该模型使用隐变量来根据像素聚类将不同的像素与输出句子对齐，以捕捉视觉显著性并实现语言和视觉的对准。

Aug, 2018

对比教学调节

指令调优是一种改善大型语言模型对未知任务性能的有前途的方法。然而，当前的大型语言模型在面对未知指令时表现出有限的稳健性，当相同的指令以稍微变形或语言风格变化的形式表达时会生成不一致的输出。这种行为表明大型语言模型对文本变化的稳健性和对未见指令的泛化能力存在缺陷，可能引发不可靠性问题。基于此，我们提出了对比指令调优，该方法通过最大化语义上等效的指令实例对的隐藏表示之间的相似性，最小化不同语义的实例对之间的相似性。为了促进这一方法，我们通过改写任务指令来扩充现有的 FLAN 集合。在 PromptBench 基准测试上的实验证明，对比指令调优（CoIN）能够使大型语言模型在字符、词、句子和语义级别上对未知指令的稳健性得到持续提升，平均准确率提高了 2.5%。

Feb, 2024

通过教授大型多模态模型进行自适应图像质量评估

通过 Compare2Score 模型，我们成功地将文本定义的比较级别与转换后的单个图像质量得分进行了有效的联系，不仅在训练过程中有效地使用了丰富的图像质量评估数据集，而且在推理过程中通过概率矩阵自适应地转换了离线图像到连续质量得分的比较级别，从而成功超越了目前最先进的图像质量评估模型。

May, 2024