使用视觉评估 GPT-4 的美学评价能力：来自群体和个体评估的见解

Mar, 2024

使用视觉评估 GPT-4 的美学评价能力：来自群体和个体评估的见解

Assessing the Aesthetic Evaluation Capabilities of GPT-4 with Vision: Insights from Group and Individual Assessments

Yoshia Abe, Tatsuya Daikoku, Yasuo Kuniyoshi

TL;DR最近，研究发现大型语言模型在各种智力任务中表现出色，然而，很少有研究探讨其与人类行为对齐，特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务，一个是预测一个群体的平均评价值，另一个是预测个体的评价值。通过探索提示和分析预测行为，我们调查了 GPT-4 with Vision 的表现。实验结果显示，GPT-4 with Vision 在预测审美评价方面表现出优秀的性能，并展现出对美和丑之间不同响应的特性。最后，我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。

Abstract

Recently, it has been recognized that large language models demonstrate high performance on various intellectual tasks. However, few studies have investigated alignment with humans in behaviors that involve sensibility, such as →

large language models aesthetic evaluation gpt-4 with vision image input ai system

发现论文，激发创造

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT 作为心理学家？关于 GPT-4V 在视觉情感计算中的初步评估

Multimodal language models (MLMs) are applied in affective computing, evaluating their performance in facial action unit recognition, micro-expression detection, and emotion recognition, highlighting challenges and potential for further study in this field.

Mar, 2024

从概念到制造：评估用于工程设计的视觉语言模型

利用 GPT-4V 模型进行了一项广泛评估，涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务，在分析中发现了该模型在处理复杂设计和制造挑战方面的能力，并确定了其在复杂工程设计应用中的局限性。

Nov, 2023

GPT-4V 中的视觉文化意识探索：一项全面的探究

探索 GPT-4V 在视觉理解方面的能力和限制，着重关注文化方面，通过使用 MaRVL 基准数据集进行详细调查，实验证明 GPT-4V 在识别文化概念方面表现出色，但在低资源语言上仍然存在较弱的性能。

Feb, 2024

评估 ChatGPT-4 Vision 在巴西国家本科计算机科学考试中

ChatGPT-4 Vision 在巴西 2021 年本科国家考试中展现了优秀的视觉能力，但在问题解释、逻辑推理和视觉敏锐度方面遇到了困难，提示未来考试需要改进问题设计。研究结果表明，虽然 ChatGPT-4 Vision 在多模态学术评估中表现出潜力，但人类监督仍然至关重要，以验证模型的准确性并确保高风险教育考试的公平性。

Jun, 2024

GPT-4V (ision) 是文本生成三维图像的人类对齐评估器

用 GPT-4V 生成评估提示，通过用户定义的标准比较两个 3D 模型，并使用这些两两比较结果分配模型的 Elo 评级，实验结果表明我们的度量方法在不同评估标准下与人类偏好强烈吻合。

Jan, 2024

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

挑战性医疗案例中的视觉与语言模型准确度

基于本研究的结果，利用大规模通用语言模型结合图像能够有效应对复杂医学病例，但图像的添加可能降低模型的准确性。

Nov, 2023

GPT-Vision 在科学图像中的根本直觉

通过运用扎实理论和主题分析的严谨框架，本研究旨在为自然语言处理提供定性评估方法，以帮助研究人员提高对新模型的扎实理解，并展示 GPT-Vision 在科学图表的替代文本生成方面的应用。

Nov, 2023