与人类审美观在检索中对齐的视觉模型：基准和算法

Jun, 2024

与人类审美观在检索中对齐的视觉模型：基准和算法

Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms

Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu...

TL;DR利用大型语言模型 (LLM) 的推理能力和美学模型，在一个检索系统中，提出了一种基于偏好的强化学习方法，用于调整视觉模型以更好地与人类美学对齐并提升视觉模型的美学行为。通过使用大型多模型 (LMM) 评估美学表现，并引入名为 HPIR 的新数据集来验证 LMM 的鲁棒性，实验证明了该方法在多个指标下显著提高了视觉模型的美学行为。我们相信该算法可以成为与人类价值观对齐的视觉模型的一种通用方法。

Abstract

Modern vision models are trained on very large noisy datasets. While these models acquire strong capabilities, they may not follow the user's intent to output the desired results in certain aspects, e.g., visual aesthetic, preferred style, and responsibility. In this paper, we target t

vision models visual aesthetics retrieval system large language models aesthetic performance

发现论文，激发创造

神经美学图像评估器

为了更深入地认识审美，本文提出了一种神经审美图像审阅者模型，可以不仅为图像提供审美评分，还能生成解释评分原因的文本描述。通过多任务学习，该模型可以评估审美图像并以端到端的方式产生评论。研究结果表明，该模型在 AVA-Reviews 数据集上具有优异的表现，可以与人类视觉感知相一致。

Feb, 2018

通过合成基准评估大型视觉 - 语言模型对现实世界复杂性的理解

该研究评估了大型视觉语言模型（LVLMs）区分人工生成图像和人类生成图像的能力。通过引入一种新的自动化基准构建方法来进行评估。实验证明 LVLMs 在某种程度上能够区分图像类型，但存在向右的偏差，并且相对于人类表现出明显较差。为了深入研究这些发现，我们使用人工智能开发了一个自动化基准构建过程。该过程包括主题检索、叙事脚本生成、错误嵌入和图像生成，从而创建了一组包含有意错误的文本 - 图像对。通过构建两个可比较的基准，我们验证了我们的方法。本研究凸显了 LVLMs 在现实世界理解方面的优势和劣势，并推进了基准构建技术，提供了一种可扩展和自动化的人工智能模型评估方法。

Jun, 2024

大型语言模型作为自动标定器用于基准测试视觉语言模型

通过自动数据整理和评估，利用优秀的语言模型和视觉语言模型衡量对齐 VLMs 与人类智能的能力，我们提出了 Auto-Bench 作为一个灵活、可扩展和全面的评估 benchmark。

Nov, 2023

AesBench：多模态大型语言模型在图像美学感知方面的专业基准

通过构建一个包含多样化图像内容和高质量专业审美专家注释的专家标记的美学感知数据库（EAPD）和一套综合性评判标准，我们提出了 AesBench 来全面评估多模态大规模语言模型（MLLMs）的美学感知能力，实验结果表明，目前的 MLLMs 只具有初步的美学感知能力，与人类之间仍然存在显著差距。希望此研究能激发学术界对 MLLMs 美学潜力的进一步探索。

Jan, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

AesExpert：面向图像美学感知的多模态基础模型

通过构建 Aesthetic Multi-Modality Instruction Tuning（AesMMIT）数据集，并基于该数据集进行 fine-tuning，实现了 multi-modality Aesthetic Expert 模型，即 AesExpert，其在审美知觉性能方面显著优于当前最先进的 MLLMs

Apr, 2024

WildVision：使用人类偏好评估在野外的视觉语言模型

最近在视觉语言模型（VLMs）中取得的突破强调了在真实世界中多模态交互中对人类偏好的基准测试的必要性。为了弥补这一差距，我们推出了 WildVision-Arena（WV-Arena），这是一个在线平台，收集人类偏好以评估 VLMs。我们通过从 WV-Arena 的 8,000 个用户提交中选择 500 个高质量样本来策划 WV-Bench。WV-Bench 使用 GPT-4 作为评判标准，将每个 VLM 与 Claude-3-Sonnet 进行比较，在 WV-Arena Elo 上实现了 0.94 的斯皮尔曼相关性。这在很大程度上超过了像 MMVet，MMMU 和 MMStar 这样的其他基准测试。我们对 2 万个现实世界的交互的全面分析揭示了表现最佳的 VLMs 的失败案例中的重要见解。例如，我们发现虽然 GPT-4V 在简单的视觉识别和推理任务方面超过了 Reka-Flash，Opus 和 Yi-VL-Plus 等许多其他模型，但它仍然面临着微妙的上下文提示，空间推理，视觉想象力和专家领域知识的挑战。此外，当前的 VLMs 在受到故意引发时存在幻觉和安全问题。我们正在发布我们的聊天和反馈数据，以进一步推进 VLMs 领域的研究。

Jun, 2024

通过偏好微调来对齐视觉大型语言模型中的模态

通过引入偏好调优和自动生成数据的方法 POVID，本研究解决了视觉大语言模型中可能出现的幻觉问题，并通过直接偏好优化的强化学习模型提高了模型性能。

Feb, 2024

VILA：利用视觉语言预训练学习用户评论中的图像美学

提出一种基于用户评论的图像审美预测方法，使用视觉 - 语言预训练模型学习图像的审美表现，结合排名适配器模块设计了一种高效的模型适配方法。实验结果表明，该模型在图像美学字幕生成、零样本风格分类和零样本图像审美评价等任务上表现良好，达到了预先训练模型的最佳性能。

Mar, 2023