利用专业放射科医师的专长提升放射学报告的 LLM 评估
使用大型语言模型对医学成像报告进行评估的一项新颖评估框架,通过与放射科医生评估结果的对比,提出了一种性能接近 GPT-4 的度量标准。为了降低成本并提高可访问性,利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与 GPT-4 相当,为医学成像报告生成提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发,该模型将进一步开源和提供可访问性。
Apr, 2024
该研究介绍了 MRScore,一种针对放射学报告生成的自动评估指标,通过利用大型语言模型 (LLMs)。相较于传统的自然语言生成 (NLG) 指标如 BLEU,MRScore 更准确地评估生成的放射学报告。作者与放射科医生合作开发了一个框架,该框架指导 LLMs 进行放射学报告评估,以确保与人类分析保持一致。我们的实验证明 MRScore 与人类判断有更高的相关性,并在模型选择方面表现出优越性能。我们的代码和数据集将在 GitHub 上提供。
Apr, 2024
研究了 8 种大型语言模型对放射学报告印象进行总结的能力,使用 CT、PET-CT 和超声波报告构建零、一、三次扫描提示,并定义了五项人工评价指标以评估印象的语义,结果显示大型语言模型在完整性和正确性方面表现较好,但简洁性和真实性评分不高,并指出少量扫描提示可以提高模型的简洁性和真实性,但临床医师仍认为大型语言模型不能取代放射学家的总结能力。
Jun, 2024
通过提出一种新颖的评估框架,判断视觉语言模型在生成基于 CT 的异常的准确摘要方面的能力,从而为辅助放射科医师减轻负担,并指导未来该领域的发展。
Mar, 2024
利用生成性人工智能进行医学图像的放射学报告撰写可极大地减少了时间成本和错误率。本研究中,我们提出了一个简单而有效的两阶段微调方案,通过软性视觉提示将视觉特征与大型语言模型的文本嵌入空间对齐。我们的框架在没有领域特定预训练的情况下取得了最先进的性能,并对软性视觉提示和注意力机制进行了详细分析,为未来的研究方向提供了启示。
Dec, 2023
该研究提出了一种包括多步骤评估法的大型语言模型(LLM)评估范例,通过结构化的交互方式进行多模态 LLM 评估,并通过获取交互数据进行后续领域特定的分析,以提高其准确性和实用性。研究以 GPT-4-Vision-Preview 为 LLM,使用多模态多项选择题评估其在病理学领域的医学诊断准确性,结果表明其约有 84% 的正确诊断,同时通过进一步的分析揭示了其在特定领域的不足之处。该方法和结果不仅适用于 GPT-4-Vision-Preview,还可应用于评估其他 LLMs 的准确性和实用性,以进一步优化其应用。
Jan, 2024
本研究旨在评估一个新型的大型语言模型 GPT3.5 在医学图像协议分配上的表现,并与经过微调的 BERT 模型和放射科医生进行比较。结果显示,GPT3.5 在性能方面略逊于 BERT 和放射科医生,但在解释决策、检测相关词汇指标和模型校准方面优于 BERT。此外,我们还发现了一些系统性错误,需要加以解决以提高其在临床中的使用安全性和适用性。
Jun, 2023
通过收集 3D 脑部 CT 数据集,使用临床视觉指导调整 (CVIT) 训练 BrainGPT 模型生成符合放射学的脑部 CT 报告,并提出了一种新的面向特征的放射学任务评估 (FORTE) 方法来评估报告的临床相关性。
Jul, 2024
本研究研究使用 LLMS 答题的能力。我们开发了一个包含 100 个肿瘤放射物理学问题的考试,将四个 LLM(ChatGPT(GPT-3.5),ChatGPT(GPT-4),巴德(LaMDA)和 BLOOMZ)与医学物理学家和非专业人员进行了评估。ChatGPT(GPT-4)平均表现优于所有其他 LLM 以及医学物理学家。ChatGPT(GPT-4)在被激发先解释,然后再回答的情况下表现得更好。ChatGPT(GPT-4)展示了出人意料的准确性,表明了一种新颖的推理能力,但存在固有属性以及无法通过大多数投票进一步提高得分。
Apr, 2023