对GPT-4V在城市更新手稿集转录中的评估

Sep, 2024

对GPT-4V在城市更新手稿集转录中的评估

An Evaluation of GPT-4V for Transcribing the Urban Renewal Hand-Written Collection

Myeong Lee, Julia H. P. Hsu

TL;DR本研究解决了1960至1980年城市更新期间产生的大量手写记录所带来的转录挑战。通过评估GPT-4V的能力，研究展示了其在高效转录和分析历史手稿方面的创新应用。结果表明，GPT-4V能够显著提升手稿处理的效率，对历史研究具有重要影响。

Abstract

Between 1960 and 1980, urban renewal transformed many cities, creating vast handwritten records. These documents posed a significant challenge for researchers due to their volume and handwritten nature. The launc

发现论文，激发创造

使用预训练的生成转换器（GPT-3）作为即插即用的感应模型用于医学图像分析的GPT4MIA

本研究提出了一种新的方法（称为GPT4MIA），利用生成预训练变压器（GPT）作为医学图像分析（MIA）的即插即用传递推理工具，在理论分析上，我们开发了多个技术处理，以提高GPT4MIA的效率和有效性，包括更好的提示结构设计、样本选择和代表性样本/特征的提示排序，并提供了两个具体的用例（带工作流程），以在与图像分类的成熟模型（例如ResNet）协同工作的情况下检测预测错误并提高预测准确度。

Feb, 2023

GPT-4 技术报告

本文介绍了GPT-4，一种大规模、多模态模型，可接受图像输入和文本输入，并产生文本输出。通过预先训练，优化方法和改进后的对齐过程，GPT-4表现出人类水平的性能。

Mar, 2023

Gpt-4: 自然语言处理中的进展与机遇综述

OpenAI开发的第四代GPT系列语言模型GPT-4，具有更强的多语种能力、上下文理解能力和推理能力，可以应用于聊天机器人、个人助理、语言翻译、文本摘要和问答等领域，但也存在计算需求、数据需求和伦理问题等挑战。

May, 2023

探索GPT-4V的OCR能力：定量和深入评估

GPT-4V综合评估了最近发布的大型多模态模型(GPT-4V(ision))在光学字符识别(OCR)方面的能力，发现其在识别和理解拉丁内容方面表现良好，但在多语言情境和复杂任务中存在困难。基于这些观察，我们深入探讨了专门的OCR模型的必要性，以及充分利用预训练的通用LMM模型如GPT-4V来进行OCR下游任务的策略。该研究为未来LMM在OCR领域的研究提供了重要参考。

Oct, 2023

GPT-4V在医学影像中的多模态能力综合研究

这篇论文全面评估了GPT-4V在不同的医学图像任务中的能力，包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估，发现了GPT-4V在为胸部X射线图像生成描述性报告方面的潜力，特别是在有良好结构提示的引导下。然而，我们的发现也揭示了GPT-4V在某些评估指标（如CIDEr）上仍需改进，尤其是在MIMIC-CXR数据集基准上。在医学问答方面，虽然GPT-4V在区分问题类型方面表现出了熟练度，但在准确性方面还不及现有基准。此外，我们的分析发现了常规评估指标（如BLEU分数）的局限性，倡导发展更语义鲁棒的评估方法。在视觉基础领域，虽然GPT-4V在识别边界框方面显示了初步的潜力，但其精度不够，特别是在识别特定的医学器官和病症方面。我们的评估强调了GPT-4V在医学图像领域的重要潜力，同时也强调了需要针对性的改进来充分发挥其能力。

Oct, 2023

GPT4Vis：GPT-4能为零样本视觉识别做什么？

本研究对GPT-4在零样本视觉识别任务中的语言和视觉能力进行了评估，发现利用GPT-4生成丰富的文本描述明显提高了零样本识别性能，并且在视觉熟练度方面，GPT-4V在16个基准数据集中表现介于OpenAI-CLIP的ViT-L和EVA-CLIP的ViT-E之间。

Nov, 2023

GPT-4V在生物医学成像中的整体评价

本研究介绍了针对生物医学图像分析的GPT-4V的大规模评估，评估了GPT-4V在医学成像领域的表现和局限性，包括放射学、肿瘤学、眼科学、病理学等16个医学成像类别的任务，结果显示GPT-4V在成像模态和解剖定位方面表现出色，但在疾病诊断和定位方面存在一定困难，而且在生成诊断报告方面表现优异，需要进一步提升和验证才能在临床应用前达到可靠，该研究推动对多模态大语言模型的理解，并指导未来工作在医疗应用方面的发展。

Nov, 2023

评估带有视觉能力的GPT-4对胸部X光片的放射学发现的检测

GPT-4V 多模态大型语言模型在检测胸部 X 光片的放射学发现方面的应用研究表明，目前 GPT-4V 还不具备解读胸部 X 光片的实际诊断能力。

Mar, 2024

GPT-4V 仍无法生成放射学报告

通过对 GPT-4V 在两个胸部 X 光报告数据集上生成报告的系统评估，我们发现它在词汇度量和临床有效性度量方面的表现均非常糟糕；我们将任务分解为两个步骤，即医学图像推理和（基于真实条件）生成报告，结果表明 GPT-4V 在图像推理方面的表现一直很差，而且即使在生成报告方面给予了真实条件，其生成的报告仍不如经过微调的 LLaMA-2 正确且自然。综上，我们对于在放射学工作流中使用 GPT-4V 的可行性提出了疑问。

Jul, 2024

评估GPT-4o在气候变化证据综合和系统评估中的有效性：初步洞察

我们研究了使用GPT-40，一种先进的大型语言模型（LLM），进行证据综述和系统评估任务的潜力。我们评估了GPT-40在全球适应性映射计划（GAMI）数据集中执行这些任务的有效性，结果表明在低专业的任务中，如地理位置识别，GPT-40可以达到很高的准确性，然而在中级和高级专业任务中，如利益相关方识别和适应性响应深度评估，其性能则不可靠。这些发现促进了设计评估工作流程的需求，既利用了GPT-40等模型的优点，也提供了改进它们在这些任务上表现的细化方法。

Jul, 2024