利用专业放射科医师的专长提升放射学报告的LLM评估
该研究系统评估了最近NLP应用于放射学报告方面的文献,并将其归类为6个临床应用类别,结果表明,深度学习的使用在增加,但传统的机器学习方法仍然普遍存在。
Feb, 2021
提出了ImpressionGPT,利用建立动态上下文的方法,使模型通过语言模型的上下文学习能力获得从现有数据中语义相似的示例的上下文知识,并设计一种迭代优化算法,用于对生成的印象结果进行自动评估和对应的指令提示,从而在不需要额外训练数据或微调语言模型的情况下在MIMIC-CXR和OpenI数据集上实现了最佳性能。
Apr, 2023
本文提出了一个使用大规模医疗文本数据对指令调整的生成大语言模型进行领域自适应预训练的系统,以增强其医疗知识和特定任务的表现。该系统在零样本情况下在IMPRESSIONS生成任务上表现比其他预训练和微调方法更好,并在BioNLP 2023研讨会的Radiology Report Summarization Task 1B中排名第一。
Jun, 2023
本论文评估了目前最先进的大型语言模型GPT-4在放射学报告的文本应用中的表现,探索了各种提示策略,并发现GPT-4在常见放射学任务中表现要优于或与目前最先进的放射学模型相媲美。针对需要学习特定样式或架构的任务,GPT-4通过基于示例的提示得到改进并与监督的最先进模型相匹配。通过与一名获得认证的放射科医生的广泛错误分析表明,GPT-4在放射学知识方面具备足够水平,只偶尔在需要微妙领域知识的复杂上下文中出现错误。针对发现的总结,GPT-4的输出整体上与现有的人工编写印象相当。
Oct, 2023
放射学报告是现代医学的重要组成部分,自动化报告生成和AI生成的报告对放射学家和临床决策具有潜在的帮助,但面临着质量评估和医生参与的挑战。本研究展示了放射科医生与AI系统进行合作的潜力以及AI生成报告与专家撰写报告的比较结果。
Nov, 2023
使用大型语言模型对医学成像报告进行评估的一项新颖评估框架,通过与放射科医生评估结果的对比,提出了一种性能接近GPT-4的度量标准。为了降低成本并提高可访问性,利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与GPT-4相当,为医学成像报告生成提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发,该模型将进一步开源和提供可访问性。
Apr, 2024
该研究介绍了MRScore,一种针对放射学报告生成的自动评估指标,通过利用大型语言模型(LLMs)。相较于传统的自然语言生成(NLG)指标如BLEU,MRScore更准确地评估生成的放射学报告。作者与放射科医生合作开发了一个框架,该框架指导LLMs进行放射学报告评估,以确保与人类分析保持一致。我们的实验证明MRScore与人类判断有更高的相关性,并在模型选择方面表现出优越性能。我们的代码和数据集将在GitHub上提供。
Apr, 2024
医疗影像科室面临日益增长的需求对放射科医生准时准确提交报告的压力。最近人工智能技术的进步已展示出自动生成放射学报告(ARRG)的巨大潜力,引发了大量研究。该调查论文通过方法学评审对当代ARRG方法进行了回顾,包括:评估基于特征(如可用性、大小和采用率)的数据集,研究深度学习训练方法(如对比学习和强化学习),探索先进的模型架构(包括CNN和Transformer模型的变种),通过多模态输入和知识图谱集成临床知识的技术,以及审查常用的NLP评估指标和定性临床审查的当前模型评估技术。此外,还分析了审查模型的定量结果,检查了表现最佳的模型以寻求进一步的见解。最后,强调了潜在的新方向,预测将采用其他放射学模态的附加数据集和改进的评估方法作为未来发展的重要领域。
May, 2024
研究了8种大型语言模型对放射学报告印象进行总结的能力,使用CT、PET-CT和超声波报告构建零、一、三次扫描提示,并定义了五项人工评价指标以评估印象的语义,结果显示大型语言模型在完整性和正确性方面表现较好,但简洁性和真实性评分不高,并指出少量扫描提示可以提高模型的简洁性和真实性,但临床医师仍认为大型语言模型不能取代放射学家的总结能力。
Jun, 2024