关于 GPT-4 在文档理解中的适用性注解

May, 2024

关于 GPT-4 在文档理解中的适用性注解

Notes on Applicability of GPT-4 to Document Understanding

Łukasz Borchmann

TL;DR我们对所有公开可用的 GPT-4 系列模型在文档理解领域进行了遗漏和可重复评估，发现通过提供外部 OCR 引擎识别的文本和文档图像作为输入，GPT-4 Vision Turbo 模型在处理文本语义以外的文本空间排列和视觉线索方面表现良好。评估后的分析结果显示了文本 GPT-4 模型的可能污染以及对长文档的性能显著下降。

Abstract

We perform a missing, reproducible evaluation of all publicly available gpt-4 family models concerning the document understanding field, where it is frequently required to comprehend →

gpt-4 document understanding text spacial arrangement visual clues performance drop

发现论文，激发创造

GPT-4V（视觉）的早期评估

GPT-4V 的能力和限制在视觉理解、语言理解、视觉拼图解决以及其他模态（如深度、热力、视频和音频）方面被评估，发现其在英语视觉基准上表现出色，但无法识别图像中的简单中文文本；在敏感特征问题、语言理解任务和类似图片之间差异的解决方面存在一些不一致性和限制，但通过少样本提示可以提高其性能；此外，在视频和热力等与图像类似的任务上表现出了非常好的性能。

Oct, 2023

GPT-4 技术报告

本文介绍了 GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4 表现出人类水平的性能。

Mar, 2023

探索 GPT-4V 的 OCR 能力：定量和深入评估

GPT-4V 综合评估了最近发布的大型多模态模型 (GPT-4V (ision)) 在光学字符识别 (OCR) 方面的能力，发现其在识别和理解拉丁内容方面表现良好，但在多语言情境和复杂任务中存在困难。基于这些观察，我们深入探讨了专门的 OCR 模型的必要性，以及充分利用预训练的通用 LMM 模型如 GPT-4V 来进行 OCR 下游任务的策略。该研究为未来 LMM 在 OCR 领域的研究提供了重要参考。

Oct, 2023

GPT4Vis：GPT-4 能为零样本视觉识别做什么？

本研究对 GPT-4 在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用 GPT-4 生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V 在 16 个基准数据集中表现介于 OpenAI-CLIP 的 ViT-L 和 EVA-CLIP 的 ViT-E 之间。

Nov, 2023

从文本到图像：探索 GPT-4Vision 在各个亚专业的先进放射学分析中的潜力

评估和比较 GPT-4 和 GPT-4Vision 在放射学任务中的作用，表明 GPT-4Vision 可以从图像中识别放射学特征，从而提高其在诊断潜力上，超过基于文本的描述。

Nov, 2023

GPT-4V 作为视觉语言任务的通用评估器

GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力，尽管存在一些限制，但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。

Nov, 2023

挑战性医疗案例中的视觉与语言模型准确度

基于本研究的结果，利用大规模通用语言模型结合图像能够有效应对复杂医学病例，但图像的添加可能降低模型的准确性。

Nov, 2023

GPT-4 在需要高度专业领域知识的文本数据分析任务中的支持能力？

本文评估了生成式预训练转换 (GPT-4) 对高度专业领域的文本数据分析任务的能力，特别关注分析法院裁决以解释法律概念的任务。我们发现，在注释指南的提示下，GPT-4 的表现与经过良好培训的法律学生注释器相当。我们发现，虽然性能略有下降，但 GPT-4 可以进行批量预测，从而降低成本。然而，采用连贯思维提示并没有在此任务上明显提高性能。此外，我们演示了如何分析 GPT-4 的预测，以识别和减轻注释指南的缺陷，进而提高模型的性能。最后，我们观察到该模型非常脆弱，因为提示中的小型格式相关更改对预测结果影响很大。这些发现可被从事高度专业领域任务的文本语义 / 语用注释的研究人员和实践者利用。

Jun, 2023

GPT-4V 在医学影像中的多模态能力综合研究

这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了 GPT-4V 在某些评估指标（如 CIDEr）上仍需改进，尤其是在 MIMIC-CXR 数据集基准上。在医学问答方面，虽然 GPT-4V 在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如 BLEU 分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然 GPT-4V 在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了 GPT-4V 在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT-4V (ision) 是文本生成三维图像的人类对齐评估器

用 GPT-4V 生成评估提示，通过用户定义的标准比较两个 3D 模型，并使用这些两两比较结果分配模型的 Elo 评级，实验结果表明我们的度量方法在不同评估标准下与人类偏好强烈吻合。

Jan, 2024