重新审视全球:揭示放射学报告生成指标中的不一致性框架
通过引入新的激励机制,结合现有语义等效性指标和强化学习方法,我们的放射学报告生成系统成功地在临床信息提取性能F1得分上取得了22.1的改进,并且相较于基线,能更加准确地生成完整一致的报告。
Oct, 2020
应用10个准确度度量标准对生成报告进行了比较实验,发现基于ROUGE-L和Word Mover's Distance度量标准的相关研究和综合准确度得分,有助于确定人工智能生成医学报告的准确性,以减轻全科医生的行政负担。
Nov, 2023
我们提出了一种适用于放射学领域的新的自动评估度量标准,使用成功的 COMET 架构。通过在放射学知识图谱 RadGraph 上训练和发布四个面向医学的模型检查点,我们的结果表明我们的度量标准与 BERTscore、BLEU 和 CheXbert 分数等已有度量标准呈现中高度相关性。此外,我们证明了我们的一个检查点与使用公开可用的六个董事认证的放射科医生的注释集评估人类判断具有很高的相关性,并使用一套包含 200 份报告的数据集进行了分析,同时还与两名放射科医生在一组包含 100 份报告的集合上进行了自己的分析。结果表明我们的方法有潜在效力作为放射学特定评估度量标准。我们的代码、数据和模型检查点将公开提供。
Nov, 2023
放射学报告是现代医学的重要组成部分,自动化报告生成和AI生成的报告对放射学家和临床决策具有潜在的帮助,但面临着质量评估和医生参与的挑战。本研究展示了放射科医生与AI系统进行合作的潜力以及AI生成报告与专家撰写报告的比较结果。
Nov, 2023
利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究,通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。
Jan, 2024
使用大型语言模型对医学成像报告进行评估的一项新颖评估框架,通过与放射科医生评估结果的对比,提出了一种性能接近GPT-4的度量标准。为了降低成本并提高可访问性,利用语言模型评估结果构建数据集,进行了知识蒸馏以训练较小的模型,该模型的评估能力与GPT-4相当,为医学成像报告生成提供了一种易于使用和高效的评估方法,促进了更具临床相关性的模型的开发,该模型将进一步开源和提供可访问性。
Apr, 2024
该研究介绍了MRScore,一种针对放射学报告生成的自动评估指标,通过利用大型语言模型(LLMs)。相较于传统的自然语言生成(NLG)指标如BLEU,MRScore更准确地评估生成的放射学报告。作者与放射科医生合作开发了一个框架,该框架指导LLMs进行放射学报告评估,以确保与人类分析保持一致。我们的实验证明MRScore与人类判断有更高的相关性,并在模型选择方面表现出优越性能。我们的代码和数据集将在GitHub上提供。
Apr, 2024
介绍了一种名为GREEN(生成式放射学报告评估和错误标注)的放射学报告生成度量方法,利用语言模型的自然语言理解能力定量和定性地识别和解释候选报告中的临床显著错误,该方法不仅与专家错误计数具有更高的相关性,而且与专家偏好更加一致。
May, 2024
通过引入一个以外行人术语为基础的数据集、评估和训练框架来系统地改进放射学报告生成(RRG),以解决现有用于评估RRG的词汇基准度量方法(如BLEU)的问题,该方法的高性能可能只是一个幻觉。我们提出了一个基于语义的评估方法,并证明其可以缓解BLEU得分的虚高问题,为RRG提供更公平的评估。我们还展示了在外行人术语数据集上训练可以促使模型关注报告的语义,而不是过度拟合报告模板。
Jun, 2024
本研究针对现有放射科报告生成模型无法真实体现对影像的理解和描述的细致程度这一问题,提出了一种名为ReXKG的系统,通过自动提取结构化信息构建全面的知识图谱。研究发现,ReXKG可以提供更准确的评估指标,从而帮助优化AI模型的性能,提升其在临床中的应用价值。
Aug, 2024