自监督视觉偏好对齐

Apr, 2024

Self-Supervised Visual Preference Alignment

Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang

TL;DR本研究首次尝试了视觉语言模型（VLMs）中的无监督偏好对齐，通过对原始和增强图像对生成选择和拒绝响应，并进行直接偏好优化来实现。通过合理设计图像输入的增强方式，诱导 VLM 生成虚假但困难的负面响应，有助于模型从中学习并生成更强大和健壮的答案。整个流程不再依赖于 GPT4 的监督或人工参与对齐，具有高效和简洁的代码。通过仅使用 8k 个随机采样的无监督数据，在复杂推理的 LLaVA-Bench 上相对于 GPT-4 达到 90％的相对分数，并在复杂多模态基准 MM-Vet 上提高 LLaVA-7B/13B 的分数 6.7％/5.6％。可视化结果显示它对齐用户意图的能力得到了改善。作者进行了一系列消融实验以揭示该方法的潜在机制，并表明其进一步扩展的潜力。代码将会提供。

Abstract

This paper makes the first attempt towards unsupervised preference alignment in vision-language models (VLMs). We generate chosen and rejected responses with regard to the original and augmented image pairs, and

unsupervised preference alignment vision-language models augmentation direct preference optimization complex reasoning

发现论文，激发创造

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

通过自我改进增强大型视觉语言模型中的视觉 - 语言模态对齐

通过自我改进提高视觉与语言模态的对齐性的 SIMA 框架在 14 个幻觉和综合基准测试中展示了改进模型性能和优越的模态对齐，超过了先前的方法。

May, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

无图像的自然语言处理任务的视觉增强预训练语言模型

本文提出了一种新的视觉增强微调方法，名为 VAWI, 该方法能够将视觉语义注入到不同 PLMs 或自然语言处理任务中，通过使用视觉饥饿字词的固定 CLIP 文本编码器来产生视觉增强表示，引入了视觉语义，实验结果表明该方法能够改善 BERT、RoBERTa、BART 和 T5 的性能，并显著优于其他竞争基线。

Dec, 2022

无监督的视觉与语言预训练：无需平行图像和文本

通过无监督预训练实现视觉和语言模型的学习，使用 “mask-and-predict” 方法预训练文本和图像数据，并引入目标识别模型检测到的对象标签作为两种模式之间的桥梁，在四个英语视觉和语言基准测试中获得了接近于使用对齐数据预训练的模型的性能，挑战了对于 V&L 预训练来说，对齐数据是必要的广泛看法，并显著减少了 V&L 模型的监督所需量。

Oct, 2020

用自动生成的偏好数据对齐大型语言模型

通过自动生成的优先数据 (Selfie) 和少量的人工标注优先数据，我们提出了一种新的框架，可以显著增强大型语言模型的对齐性能，进一步提取模型的内在偏好。

Jun, 2024