重新审视全球：揭示放射学报告生成指标中的不一致性框架

Aug, 2024

重新审视全球：揭示放射学报告生成指标中的不一致性框架

ReXamine-Global: A Framework for Uncovering Inconsistencies in Radiology Report Generation Metrics

Oishi Banerjee, Agustina Saenz, Kay Wu, Warren Clements, Adil Zia...

TL;DR本研究针对现有放射学AI生成报告评估指标的局限性，提出了ReXamine-Global框架，旨在测试这些指标在不同医院和书写风格下的表现。研究发现现有指标在可泛化性方面存在严重不足，这为未来报表评估指标的设计提供了重要的指导和改进方向。

Abstract

Given the rapidly expanding capabilities of generative AI models for Radiology, there is a need for robust metrics that can accurately measure the quality of AI-generated Radiology reports across diverse hospital

发现论文，激发创造

提高图像到文本放射学报告生成的事实完整性和一致性

通过引入新的激励机制，结合现有语义等效性指标和强化学习方法，我们的放射学报告生成系统成功地在临床信息提取性能F1得分上取得了22.1的改进，并且相较于基线，能更加准确地生成完整一致的报告。

Oct, 2020

自动化医疗报告中精确度指标的比较实验：以中耳炎会诊为例

应用10个准确度度量标准对生成报告进行了比较实验，发现基于ROUGE-L和Word Mover's Distance度量标准的相关研究和综合准确度得分，有助于确定人工智能生成医学报告的准确性，以减轻全科医生的行政负担。

Nov, 2023

放射学感知的基于模型的报告生成评价指标

我们提出了一种适用于放射学领域的新的自动评估度量标准，使用成功的 COMET 架构。通过在放射学知识图谱 RadGraph 上训练和发布四个面向医学的模型检查点，我们的结果表明我们的度量标准与 BERTscore、BLEU 和 CheXbert 分数等已有度量标准呈现中高度相关性。此外，我们证明了我们的一个检查点与使用公开可用的六个董事认证的放射科医生的注释集评估人类判断具有很高的相关性，并使用一套包含 200 份报告的数据集进行了分析，同时还与两名放射科医生在一组包含 100 份报告的集合上进行了自己的分析。结果表明我们的方法有潜在效力作为放射学特定评估度量标准。我们的代码、数据和模型检查点将公开提供。

Nov, 2023

临床医生与放射学报告生成模型之间的共识、不一致性和协同效应

放射学报告是现代医学的重要组成部分，自动化报告生成和AI生成的报告对放射学家和临床决策具有潜在的帮助，但面临着质量评估和医生参与的挑战。本研究展示了放射科医生与AI系统进行合作的潜力以及AI生成报告与专家撰写报告的比较结果。

Nov, 2023

利用专业放射科医师的专长提升放射学报告的LLM评估

利用大型语言模型进行人工智能辅助的放射学报告生成与评估研究，通过结合放射科医生专业知识并采用相关评估指标以提高医学报告质量评估水平。

Jan, 2024

LLM-RadJudge：X光报告生成实现放射科医师级评估

使用大型语言模型对医学成像报告进行评估的一项新颖评估框架，通过与放射科医生评估结果的对比，提出了一种性能接近GPT-4的度量标准。为了降低成本并提高可访问性，利用语言模型评估结果构建数据集，进行了知识蒸馏以训练较小的模型，该模型的评估能力与GPT-4相当，为医学成像报告生成提供了一种易于使用和高效的评估方法，促进了更具临床相关性的模型的开发，该模型将进一步开源和提供可访问性。

Apr, 2024

MRScore: 基于LLM的放射学报告生成评估系统

该研究介绍了MRScore，一种针对放射学报告生成的自动评估指标，通过利用大型语言模型(LLMs)。相较于传统的自然语言生成(NLG)指标如BLEU，MRScore更准确地评估生成的放射学报告。作者与放射科医生合作开发了一个框架，该框架指导LLMs进行放射学报告评估，以确保与人类分析保持一致。我们的实验证明MRScore与人类判断有更高的相关性，并在模型选择方面表现出优越性能。我们的代码和数据集将在GitHub上提供。

Apr, 2024

绿色：生成性放射学报告评估和错误标注

介绍了一种名为GREEN（生成式放射学报告评估和错误标注）的放射学报告生成度量方法，利用语言模型的自然语言理解能力定量和定性地识别和解释候选报告中的临床显著错误，该方法不仅与专家错误计数具有更高的相关性，而且与专家偏好更加一致。

May, 2024

X射线简化：用通俗语言生成和评估放射学报告

通过引入一个以外行人术语为基础的数据集、评估和训练框架来系统地改进放射学报告生成(RRG)，以解决现有用于评估RRG的词汇基准度量方法（如BLEU）的问题，该方法的高性能可能只是一个幻觉。我们提出了一个基于语义的评估方法，并证明其可以缓解BLEU得分的虚高问题，为RRG提供更公平的评估。我们还展示了在外行人术语数据集上训练可以促使模型关注报告的语义，而不是过度拟合报告模板。

Jun, 2024

通过知识图谱揭示放射科报告生成模型的知识空白

本研究针对现有放射科报告生成模型无法真实体现对影像的理解和描述的细致程度这一问题，提出了一种名为ReXKG的系统，通过自动提取结构化信息构建全面的知识图谱。研究发现，ReXKG可以提供更准确的评估指标，从而帮助优化AI模型的性能，提升其在临床中的应用价值。

Aug, 2024