Dec, 2023

Silkie:大型视觉语言模型的偏好蒸馏

TL;DR本研究探讨大型视觉语言模型 (LVLMs) 的偏好提取,提高其生成有助于和忠实于视觉上下文的回应能力。通过构建视觉语言反馈 (VLFeedback) 数据集并采用 Direct Preference Optimization(DPO)方法,研究人员实现了 Silkie 模型,其在感知和认知能力方面相对提高了 6.9%和 9.5%,同时在 MMHal-Bench 基准测试中取得了 3.02 的最优成绩,证明 DPO 与 VLFeedback 数据集主要提升了 LVLMs 的细粒度感知和复杂认知能力,相比人工标注的偏好数据集实现了更全面的改进。