Silkie：大型视觉语言模型的偏好蒸馏

Dec, 2023

Silkie：大型视觉语言模型的偏好蒸馏

Silkie: Preference Distillation for Large Visual Language Models

Lei Li, Zhihui Xie, Mukai Li, Shunian Chen, Peiyi Wang...

TL;DR本研究探讨大型视觉语言模型 (LVLMs) 的偏好提取，提高其生成有助于和忠实于视觉上下文的回应能力。通过构建视觉语言反馈 (VLFeedback) 数据集并采用 Direct Preference Optimization（DPO）方法，研究人员实现了 Silkie 模型，其在感知和认知能力方面相对提高了 6.9％和 9.5％，同时在 MMHal-Bench 基准测试中取得了 3.02 的最优成绩，证明 DPO 与 VLFeedback 数据集主要提升了 LVLMs 的细粒度感知和复杂认知能力，相比人工标注的偏好数据集实现了更全面的改进。

Abstract

This paper explores preference distillation for large vision language models (LVLMs), improving their ability to generate helpful and faithful responses anchoring the visual context. We first build a vision-langu

preference distillation large vision language models vlfeedback dataset direct preference optimization silkie model

发现论文，激发创造

多模式偏好对齐解决语言模型视觉指导调整的回归

通过细粒度注释的小型数据集，提出了一种基于蒸馏的多模态对齐模型，修复和增强了视觉指导调整后的多模态大型语言模型的语言能力。

Feb, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

从视觉语言模型中提炼，以改善视觉任务中的 OOD 泛化能力

Vision-Language to Vision-Align, Distill, Predict (VL2V-ADiP) is a proposed approach that aligns vision and language modalities to distill pre-trained features and superior generalization for state-of-the-art results in Domain Generalization using Vision-Language Models like CLIP.

Oct, 2023

超越幻觉：通过幻觉感知的直接偏好优化增强 LVLMs

这篇论文提出了一个新的策略：幻觉感知直接偏好优化（HA-DPO），通过训练模型在给定同一图像的两个回应（一个准确一个幻觉）时倾向于选择非幻觉回应，从而解决了多模式大型语言模型中存在的 “幻觉问题”。研究结果表明，在应用 HA-DPO 策略后，MiniGPT-4 模型的性能得到了显著提升。

Nov, 2023

通过视觉语言知识蒸馏实现在 CLIP 上的多模态生成

通过视觉 - 语言知识蒸馏 (VLKD) 增强双流 VLP 模型，使其具有多模态生成能力，实现开放式视觉问答和图像字幕等多模态生成任务的强零 - shot 性能。

Mar, 2022

直接优化语言模型奖励的视频大型多模态模型

本文介绍了一种新的框架，利用详细的视频字幕作为视频内容的代理，使语言模型能够将此信息作为支持证据，用于评分视频问答（QA）预测，并通过直接将视频帧作为输入的 OpenAI GPT-4V 模型的奖励机制来展示我们的方法与之间的稳健一致性。此外，我们还表明通过直接偏好优化使用此定制奖励显著改善了视频语言模型在视频 QA 任务上的性能。

Apr, 2024

DLIP：语言 - 图像预训练的提炼

通过 DLIP（一个简单有效的 Distilling Language-Image Pre-training 框架）这篇论文，我们从不同维度对模型蒸馏进行了深入研究和分析，包括不同模块的架构特征和不同模态的信息传递，旨在研究如何蒸馏一个轻量的 VLP 模型，并通过实验证明了 DLIP 在各种跨模态任务上取得了最先进的准确性 / 效率平衡，如图像 - 文本检索、图像描述和视觉问答等。

Aug, 2023

视觉语言预训练的精简与有效的跨模态检索

基于大规模预训练模型的学习哈希方法为跨模态检索提供了性能优化，并引入了一种名为 DCMQ 的新方法，利用 VLP 模型的语义知识改进了哈希表示学习，通过引入 PQG 量化方法和 NPC 转换进一步提高了检索性能。

May, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

EfficientVLM：通过知识蒸馏和模态自适应修剪实现快速和准确的视觉语言模型

本篇研究介绍了一种对于大型视觉 - 语言模型进行压缩的方法，该方法利用蒸馏和剪枝技术，通过知识蒸馏和模态自适应剪枝等手段来获取一个更快、更小但更准确的模型。最终得到的 EfficientVLM 模型仅含有 9300 万个参数，具有 98.4％的性能表现，并在各种视觉 - 语言任务中取得了令人瞩目的结果。

Oct, 2022