开源软件到位了吗?一项关于商业和开源LLM在标注胸部X光报告能力方面的对比研究
本研究调查了使用ChatGPT将放射学报告翻译成简明语言以提高医疗保健的可行性,并将ChatGPT与GPT-4进行比较,结果发现GPT-4可以显著提高翻译的质量。
Mar, 2023
本研究介绍了 XrayGPT,一种新型的会话式医疗视觉-语言模型,可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐,并使用简单的线性变换,我们的模型能够具备出色的视觉会话能力,从而深入理解放射学和医学领域的知识。
Jun, 2023
本论文评估了目前最先进的大型语言模型GPT-4在放射学报告的文本应用中的表现,探索了各种提示策略,并发现GPT-4在常见放射学任务中表现要优于或与目前最先进的放射学模型相媲美。针对需要学习特定样式或架构的任务,GPT-4通过基于示例的提示得到改进并与监督的最先进模型相匹配。通过与一名获得认证的放射科医生的广泛错误分析表明,GPT-4在放射学知识方面具备足够水平,只偶尔在需要微妙领域知识的复杂上下文中出现错误。针对发现的总结,GPT-4的输出整体上与现有的人工编写印象相当。
Oct, 2023
这篇论文全面评估了GPT-4V在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了GPT-4V在为胸部X射线图像生成描述性报告方面的潜力,特别是在有良好结构提示的引导下。然而,我们的发现也揭示了GPT-4V在某些评估指标(如CIDEr)上仍需改进,尤其是在MIMIC-CXR数据集基准上。在医学问答方面,虽然GPT-4V在区分问题类型方面表现出了熟练度,但在准确性方面还不及现有基准。此外,我们的分析发现了常规评估指标(如BLEU分数)的局限性,倡导发展更语义鲁棒的评估方法。在视觉基础领域,虽然GPT-4V在识别边界框方面显示了初步的潜力,但其精度不够,特别是在识别特定的医学器官和病症方面。我们的评估强调了GPT-4V在医学图像领域的重要潜力,同时也强调了需要针对性的改进来充分发挥其能力。
Oct, 2023
通过评估 GPT-4 对于胸部 X 射线的生成能力,本研究探讨了基于多模态基础模型的放射学印象生成的潜力,发现放射学评估与常见自动评估指标存在显著差异,并暴露了 AI 生成结果存在潜在偏见的问题。
Nov, 2023
无结构数据的放射科医生可能对临床护理有价值,但风格的变化限制了使用。本研究比较了使用领域适应的语言模型(RadLing)和通用大型语言模型(GPT-4)从胸部放射学报告中提取常见数据元素(CDE)的系统性能。
Nov, 2023
通过使用设计精心的提示,我们展示了GPT作为熟练标注器的潜力。利用只有GPT标记的数据,我们训练了基于BERT的标注器CheX-GPT,其操作速度更快、更高效。为了评估标注器的性能,我们引入了一个公开可用的专家标注测试集MIMIC-500,包含来自MIMIC验证集的500个案例。我们的研究结果证明了CheX-GPT不仅在标注准确性上优于现有模型,而且在效率、灵活性和可扩展性方面也表现出色,得益于我们引入的MIMIC-500数据集进行强大的基准测试。代码和模型可以在此链接找到。
Jan, 2024
使用OpenAI的GPT-4改进病人参与度,提供更易读和易理解的六年级读物水平的胸部X光报告的PRECISE框架,在500份报告上进行测试,证明了在可读性、可靠性和可理解性方面的显著改进。统计分析结果确认了PRECISE方法的有效性,并强调其在医疗决策中促进以患者为中心的护理交付的潜力。
Feb, 2024
通过提出一种新颖的评估框架,判断视觉语言模型在生成基于CT的异常的准确摘要方面的能力,从而为辅助放射科医师减轻负担,并指导未来该领域的发展。
Mar, 2024
通过对 GPT-4V 在两个胸部 X 光报告数据集上生成报告的系统评估,我们发现它在词汇度量和临床有效性度量方面的表现均非常糟糕;我们将任务分解为两个步骤,即医学图像推理和(基于真实条件)生成报告,结果表明 GPT-4V 在图像推理方面的表现一直很差,而且即使在生成报告方面给予了真实条件,其生成的报告仍不如经过微调的 LLaMA-2 正确且自然。综上,我们对于在放射学工作流中使用 GPT-4V 的可行性提出了疑问。
Jul, 2024