GPT-4V (ision) 是文本生成三维图像的人类对齐评估器
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态(如深度、热力、视频和音频)方面被评估,发现其在英语视觉基准上表现出色,但无法识别图像中的简单中文文本;在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制,但通过少样本提示可以提高其性能;此外,在视频和热力等与图像类似的任务上表现出了非常好的性能。
Oct, 2023
使用大型语言模型和一种具有连续思考特点的填充范式,提出了一种 NLG 质量评估框架,结合两种生成任务 —— 文本摘要和对话生成,使用 GPT-4 模型作为骨干模型,与以往方法相比性能更好。
Mar, 2023
最近,研究发现大型语言模型在各种智力任务中表现出色,然而,很少有研究探讨其与人类行为对齐,特别是涉及审美评价的行为。本研究调查了可以处理图像输入的先进语言模型 GPT-4 with Vision 在图像的审美评价任务上的表现。我们采用了两个任务,一个是预测一个群体的平均评价值,另一个是预测个体的评价值。通过探索提示和分析预测行为,我们调查了 GPT-4 with Vision 的表现。实验结果显示,GPT-4 with Vision 在预测审美评价方面表现出优秀的性能,并展现出对美和丑之间不同响应的特性。最后,我们讨论了基于人类对美感知的科学知识以及融合传统深度学习模型和大型语言模型的代理技术来开发用于审美评价的 AI 系统。
Mar, 2024
在医学文本生成的评估中,我们提出了一套以事实为核心的评估方面,并设计了相应的基于 GPT-4 的医学文本生成评估指标,与现有指标相比,该方法具有更高的人类判断一致性。
Nov, 2023
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了 GPT-4V 在某些评估指标(如 CIDEr)上仍需改进,尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面,虽然 GPT-4V 在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如 BLEU 分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然 GPT-4V 在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023
利用 GPT-4V 模型进行了一项广泛评估,涵盖概念设计、系统级和详细设计、制造和检验以及工程教育等四个主要领域的工程设计任务,在分析中发现了该模型在处理复杂设计和制造挑战方面的能力,并确定了其在复杂工程设计应用中的局限性。
Nov, 2023
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023