GPT-4V 作为视觉语言任务的通用评估器

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks

Xinlu Zhang, Yujie Lu, Weizhi Wang, An Yan, Jun Yan...

TL;DRGPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Abstract

Automatically evaluating vision-language tasks is challenging, especially when it comes to reflecting human judgments due to limitations in accounting for fine-grained details. Although gpt-4v has shown promising

vision-language tasks gpt-4v evaluation multi-modal llms automatic evaluator

发现论文，激发创造

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

迷失在翻译中：当 GPT-4V (ision) 无法与文字心有灵犀。VLLMs 及更多的视觉语言一致性分析

通过对多模态机制的详细分析，揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性，并引入了一种名为 “Vision Description Prompting” 的方法，有效提高了具有挑战性的视觉相关任务的性能。

Oct, 2023

GPT-4V 在生物医学成像中的整体评价

本研究介绍了针对生物医学图像分析的 GPT-4V 的大规模评估，评估了 GPT-4V 在医学成像领域的表现和局限性，包括放射学、肿瘤学、眼科学、病理学等 16 个医学成像类别的任务，结果显示 GPT-4V 在成像模态和解剖定位方面表现出色，但在疾病诊断和定位方面存在一定困难，而且在生成诊断报告方面表现优异，需要进一步提升和验证才能在临床应用前达到可靠，该研究推动对多模态大语言模型的理解，并指导未来工作在医疗应用方面的发展。

Nov, 2023

LMMs 初探：与 GPT-4V (ision) 的初步探索

通过分析最新的模型 GPT-4V，我们深入了解大型多模态模型（LMMs）的能力和特点，发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力，以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。

Sep, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

使用视觉评估 GPT-4 的美学评价能力：来自群体和个体评估的见解

最近，研究发现大型语言模型在各种智力任务中表现出色，然而，很少有研究探讨其与人类行为对齐，特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务，一个是预测一个群体的平均评价值，另一个是预测个体的评价值。通过探索提示和分析预测行为，我们调查了 GPT-4 with Vision 的表现。实验结果显示，GPT-4 with Vision 在预测审美评价方面表现出优秀的性能，并展现出对美和丑之间不同响应的特性。最后，我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。

Mar, 2024

GPT-4V (ision) 是文本生成三维图像的人类对齐评估器

用 GPT-4V 生成评估提示，通过用户定义的标准比较两个 3D 模型，并使用这些两两比较结果分配模型的 Elo 评级，实验结果表明我们的度量方法在不同评估标准下与人类偏好强烈吻合。

Jan, 2024

GPT-4V (ision) 作为社交媒体分析引擎

利用现有基准数据集对 GPT-4V 的五项任务进行定量分析，并选择有代表性的样本详细评估其在社交多媒体内容理解方面的潜力，结果显示 GPT-4V 在情感分析、仇恨言论检测、假新闻识别、人口推断和政治意识形态检测等任务上展现出显著的效果，并具备图像 - 文本配对的联合理解、文化和语境意识、以及广泛的常识知识，但在涉及多语言社交多媒体理解和对社交媒体最新趋势的泛化方面仍存在挑战，同时在涉及名人和政治家知识的持续发展背景下，会出现错误信息生成的倾向，这反映了已知的幻觉问题，研究结果表明，大型多模态模型在通过分析多模态信息来增进对社交媒体内容及其用户的理解方面具有巨大的潜力。

Nov, 2023

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

将 GPT-4o 置于考验中：对语言、视觉、语音和多模态熟练度的全面评估

GPT-4o 综合评估了大型语言模型（LLMs）在语言、视觉、语音和多模态能力方面的性能，结果显示 GPT-4o 在语言和推理能力的多个领域表现出高准确性和高效率，尤其在需要少样本学习的任务上表现出色，并在多模态任务方面相较于先前模型取得显著改进，但在处理复杂和模糊输入方面存在一定的变异性和限制，尤其在音频和视觉能力方面。该研究强调了需要更全面的基准和稳健的评估框架，包括定性评估以及错误分析，未来的工作应着重于扩展数据集，研究基于提示的评估，以及提升少样本学习技术以测试模型在实际场景中的适用性和性能。

Jun, 2024