对GPT-4V在城市更新手稿集转录中的评估
本研究提出了一种新的方法(称为GPT4MIA),利用生成预训练变压器(GPT)作为医学图像分析(MIA)的即插即用传递推理工具,在理论分析上,我们开发了多个技术处理,以提高GPT4MIA的效率和有效性,包括更好的提示结构设计、样本选择和代表性样本/特征的提示排序,并提供了两个具体的用例(带工作流程),以在与图像分类的成熟模型(例如ResNet)协同工作的情况下检测预测错误并提高预测准确度。
Feb, 2023
本文介绍了GPT-4,一种大规模、多模态模型,可接受图像输入和文本输入,并产生文本输出。通过预先训练,优化方法和改进后的对齐过程,GPT-4表现出人类水平的性能。
Mar, 2023
OpenAI开发的第四代GPT系列语言模型GPT-4,具有更强的多语种能力、上下文理解能力和推理能力,可以应用于聊天机器人、个人助理、语言翻译、文本摘要和问答等领域,但也存在计算需求、数据需求和伦理问题等挑战。
May, 2023
GPT-4V综合评估了最近发布的大型多模态模型(GPT-4V(ision))在光学字符识别(OCR)方面的能力,发现其在识别和理解拉丁内容方面表现良好,但在多语言情境和复杂任务中存在困难。基于这些观察,我们深入探讨了专门的OCR模型的必要性,以及充分利用预训练的通用LMM模型如GPT-4V来进行OCR下游任务的策略。该研究为未来LMM在OCR领域的研究提供了重要参考。
Oct, 2023
这篇论文全面评估了GPT-4V在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了GPT-4V在为胸部X射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了GPT-4V在某些评估指标(如CIDEr)上仍需改进,尤其是在MIMIC-CXR数据集基准上。在医学问答方面,虽然GPT-4V在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如BLEU分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然GPT-4V在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了GPT-4V在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023
本研究对GPT-4在零样本视觉识别任务中的语言和视觉能力进行了评估,发现利用GPT-4生成丰富的文本描述明显提高了零样本识别性能,并且在视觉熟练度方面,GPT-4V在16个基准数据集中表现介于OpenAI-CLIP的ViT-L和EVA-CLIP的ViT-E之间。
Nov, 2023
本研究介绍了针对生物医学图像分析的GPT-4V的大规模评估,评估了GPT-4V在医学成像领域的表现和局限性,包括放射学、肿瘤学、眼科学、病理学等16个医学成像类别的任务,结果显示GPT-4V在成像模态和解剖定位方面表现出色,但在疾病诊断和定位方面存在一定困难,而且在生成诊断报告方面表现优异,需要进一步提升和验证才能在临床应用前达到可靠,该研究推动对多模态大语言模型的理解,并指导未来工作在医疗应用方面的发展。
Nov, 2023
GPT-4V 多模态大型语言模型在检测胸部 X 光片的放射学发现方面的应用研究表明,目前 GPT-4V 还不具备解读胸部 X 光片的实际诊断能力。
Mar, 2024
通过对 GPT-4V 在两个胸部 X 光报告数据集上生成报告的系统评估,我们发现它在词汇度量和临床有效性度量方面的表现均非常糟糕;我们将任务分解为两个步骤,即医学图像推理和(基于真实条件)生成报告,结果表明 GPT-4V 在图像推理方面的表现一直很差,而且即使在生成报告方面给予了真实条件,其生成的报告仍不如经过微调的 LLaMA-2 正确且自然。综上,我们对于在放射学工作流中使用 GPT-4V 的可行性提出了疑问。
Jul, 2024
我们研究了使用GPT-40,一种先进的大型语言模型(LLM),进行证据综述和系统评估任务的潜力。我们评估了GPT-40在全球适应性映射计划(GAMI)数据集中执行这些任务的有效性,结果表明在低专业的任务中,如地理位置识别,GPT-40可以达到很高的准确性,然而在中级和高级专业任务中,如利益相关方识别和适应性响应深度评估,其性能则不可靠。这些发现促进了设计评估工作流程的需求,既利用了GPT-40等模型的优点,也提供了改进它们在这些任务上表现的细化方法。
Jul, 2024