FineRadScore：一个逐行评估放射学报告的技术，生成带有严重程度评分的纠正

May, 2024

FineRadScore：一个逐行评估放射学报告的技术，生成带有严重程度评分的纠正

FineRadScore: A Radiology Report Line-by-Line Evaluation Technique Generating Corrections with Severity Scores

Alyssa Huang, Oishi Banerjee, Kay Wu, Eduardo Pontes Reis, Pranav Rajpurkar

TL;DR借助 FineRadScore，一种基于大型语言模型的自动化评估指标，能够通过最小化逐行更正的数量，与线下标注的放射科医生意见一致，且与目前最先进的自动化 CXR 评估指标相媲美，用于整体报告质量评估。

Abstract

The current gold standard for evaluating generated chest x-ray (CXR) reports is through radiologist annotations. However, this process can be extremely time-consuming and costly, especially when evaluating large numbers of reports. In this work, we present →

generated cxr reports fineradscore large language model automated evaluation metric radiologist annotations

发现论文，激发创造

细粒度标签学习在胸部 X 射线检查报告生成中的应用

通过一种具有领域知识的自动生成算法和深度学习网络，对于胸部 X 光片的影像可实现自动标记并生成描述性报告，其精度优于现有的状态评价指标，如先前的自动化方法无法准确检测广泛的放射学发现。

Jul, 2020

临床准确的胸部 X 光报告生成

本文提出了一个可以考虑到临床精度的全自动胸部 X 光辐射学报告生成系统，利用计算机视觉和自然语言生成的高级方法来生成可读的报告，重点关注临床领域的细微差别，并通过强化学习来微调该系统。

Apr, 2019

MRScore: 基于 LLM 的放射学报告生成评估系统

该研究介绍了 MRScore，一种针对放射学报告生成的自动评估指标，通过利用大型语言模型 (LLMs)。相较于传统的自然语言生成 (NLG) 指标如 BLEU，MRScore 更准确地评估生成的放射学报告。作者与放射科医生合作开发了一个框架，该框架指导 LLMs 进行放射学报告评估，以确保与人类分析保持一致。我们的实验证明 MRScore 与人类判断有更高的相关性，并在模型选择方面表现出优越性能。我们的代码和数据集将在 GitHub 上提供。

Apr, 2024

LLM-RadJudge：X 光报告生成实现放射科医师级评估

使用大型语言模型对医学成像报告进行评估的一项新颖评估框架，通过与放射科医生评估结果的对比，提出了一种性能接近 GPT-4 的度量标准。为了降低成本并提高可访问性，利用语言模型评估结果构建数据集，进行了知识蒸馏以训练较小的模型，该模型的评估能力与 GPT-4 相当，为医学成像报告生成提供了一种易于使用和高效的评估方法，促进了更具临床相关性的模型的开发，该模型将进一步开源和提供可访问性。

Apr, 2024

绿色：生成性放射学报告评估和错误标注

介绍了一种名为 GREEN（生成式放射学报告评估和错误标注）的放射学报告生成度量方法，利用语言模型的自然语言理解能力定量和定性地识别和解释候选报告中的临床显著错误，该方法不仅与专家错误计数具有更高的相关性，而且与专家偏好更加一致。

May, 2024

放射学感知的基于模型的报告生成评价指标

我们提出了一种适用于放射学领域的新的自动评估度量标准，使用成功的 COMET 架构。通过在放射学知识图谱 RadGraph 上训练和发布四个面向医学的模型检查点，我们的结果表明我们的度量标准与 BERTscore、BLEU 和 CheXbert 分数等已有度量标准呈现中高度相关性。此外，我们证明了我们的一个检查点与使用公开可用的六个董事认证的放射科医生的注释集评估人类判断具有很高的相关性，并使用一套包含 200 份报告的数据集进行了分析，同时还与两名放射科医生在一组包含 100 份报告的集合上进行了自己的分析。结果表明我们的方法有潜在效力作为放射学特定评估度量标准。我们的代码、数据和模型检查点将公开提供。

Nov, 2023

临床医生与放射学报告生成模型之间的共识、不一致性和协同效应

放射学报告是现代医学的重要组成部分，自动化报告生成和 AI 生成的报告对放射学家和临床决策具有潜在的帮助，但面临着质量评估和医生参与的挑战。本研究展示了放射科医生与 AI 系统进行合作的潜力以及 AI 生成报告与专家撰写报告的比较结果。

Nov, 2023

胸部 X 射线报告生成的纵向数据和语义相似奖励

通过考虑纵向数据，结合患者以前的影像学研究报告，使用 CXR-BERT 进行奖励的强化学习，改善胸部 X 射线报告生成的效率以提高诊断准确性。

Jul, 2023

替换和报告：基于自然语言处理的放射学报告生成

本文提出了一种基于模板的方法，通过使用多标签图像分类器，变换器模型和 BERT 多标签文本分类器，还有规则系统从放射学图像中生成放射学报告，并在实验中通过 IU Chest X-ray 和 MIMIC-CXR 数据集表现出比现有技术模型更好的性能。

Jun, 2023

RaTEScore: 放射学报告生成的度量标准

该研究介绍了一种名为 Radiological Report Evaluation (RaTEScore) 的新型、面向实体的度量标准，用于评估由人工智能模型生成的医学报告的质量。RaTEScore 强调诊断结果和解剖细节等重要医学实体，并且对于复杂的医学近义词和否定表达式具有鲁棒性。该度量标准通过比较从语言模型中获得的实体嵌入的相似性，根据其类型和与临床重要性的相关性来衡量。我们的评估结果显示，RaTEScore 与人类偏好更加一致，这一点在现有的公开基准和我们新提出的 RaTE-Eval 基准上得到了验证。

Jun, 2024