多模态大语言模型在零样本情况下能够推理美学

Jan, 2025

多模态大语言模型在零样本情况下能够推理美学

Multimodal LLMs Can Reason about Aesthetics in Zero-Shot

Ruixiang Jiang, Changwen Chen

TL;DR本研究解决了多模态大语言模型（MLLMs）在艺术作品美学评估中的推理能力不足的问题。通过构建MM-StyleBench数据集，并提出ArtCoT方法，研究展示了艺术特定任务分解及具体语言使用所带来的推理能力提升。研究结果为MLLMs在艺术领域的应用提供了重要见解，具有广泛的应用潜力。

Abstract

We present the first study on how Multimodal LLMs' (MLLMs) reasoning ability shall be elicited to evaluate the Aesthetics of artworks. To facilitate this investigation, we construct MM-StyleBench, a novel high-qu