R2GenCSR:基于大型语言模型的X射线医学报告生成的上下文样本检索
本文提出了使用记忆驱动Transformer来生成放射学报告,实验证明该方法可以以更高的质量、更长的长度和更多的医学术语产生放射学报告,此为我们所知第一次在MIMIC-CXR上实现放射学报告的生成结果。
Oct, 2020
本研究提出了一种策略来克服大规模自然 - 医学分布偏移,并使用预先训练的潜在扩散模型在公开可用的胸部X射线(CXR)及其对应的放射学(文本)报告语料库上进行调整,评估了生成的高保真CXR的图像质量和文本 - 图像对齐的能力,并观察到使用数据增强的方式训练动态成像分类器的证据。
Nov, 2022
该论文主要研究了自动放射学报告生成的技术,重点关注了图像编码组件的相对重要性,并在 MIMIC-CXR 数据集上比较了四种不同的图像编码方法,结果表明fine-grained编码优于其他编码方法。
Nov, 2022
本文提出了一种新的方法,通过使用标签机从医学报告中提取比较先前的信息,并将该先前信息整合到基于Transformer的模型中,从而更加真实和全面地生成医学报告。该方法测试表明效果优于之前的最先进模型,提供了一个有前景的方向来弥补医学报告生成中放射科医生和模型之间的知识差距。
May, 2023
本研究介绍了 XrayGPT,一种新型的会话式医疗视觉-语言模型,可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐,并使用简单的线性变换,我们的模型能够具备出色的视觉会话能力,从而深入理解放射学和医学领域的知识。
Jun, 2023
本研究提出了一种基于自动医学图像解释的生成式语言模型的方法,用于从胸部X线图像中检测异常区域并生成相应文本,以降低放射科医生在撰写或叙述发现结果方面的工作量。
Jun, 2023
我们提出了一种放射学特定的多模态模型,用于从胸部 X 线片 (CXR) 生成放射学报告。我们的工作基于这样一个观点,即大型语言模型可以通过与预训练的视觉编码器对齐来具备多模态能力。在自然图像上,这已被证明可以使多模态模型具有图像理解和描述能力。我们提出的模型 (MAIRA-1) 结合了一个特定于 CXR 的图像编码器和一个基于 Vicuna-7B 的精调大型语言模型,以及基于文本的数据增强方法,以产生具有最先进质量的报告。具体而言,MAIRA-1 在与放射科医生对齐的 RadCliQ 指标和所有考虑的词汇指标上均有显著提高。对模型输出进行手动审核显示出生成报告的流畅性和准确性,同时揭示了现有评估方法未捕捉到的故障模式。更多信息和资源可在项目网站中找到:this https URL。
Nov, 2023
提出了一种名为TiBiX的方法,利用时间信息实现双向X光和报告生成,通过考虑先前的扫描,解决了两个挑战性问题,同时在报告生成和图像生成方面实现了良好的性能。
Mar, 2024
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题,我们引入了一种新颖的策略SERPENT-VLM,将自我完善的机制集成到MLLM框架中,通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性,在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示,从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本,从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext(ROCO)数据集上优于现有的基线方法,如LLaVA-Med、BiomedGPT等,并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展,为医学成像领域的自监督完善研究打开了新的研究路径。
Apr, 2024
本研究解决了放射报告生成过程中的评价局限,提出利用变压器模型从胸部X光片生成放射报告的方法,展现出在生成速度和效果上优于传统LSTM模型的优势。我们强调在评估生成报告时应结合语言生成和分类指标,以确保报告的连贯性和诊断价值。
Aug, 2024