基于临床背景的医学影像放射报告生成研究
本文提出了一个可以考虑到临床精度的全自动胸部X光辐射学报告生成系统,利用计算机视觉和自然语言生成的高级方法来生成可读的报告,重点关注临床领域的细微差别,并通过强化学习来微调该系统。
Apr, 2019
本文提出了使用记忆驱动Transformer来生成放射学报告,实验证明该方法可以以更高的质量、更长的长度和更多的医学术语产生放射学报告,此为我们所知第一次在MIMIC-CXR上实现放射学报告的生成结果。
Oct, 2020
提出一个基于课程学习的顺序(即,图像-文本-文本)生成框架,从而将放射学报告的生成问题分为两步。使用变压器体系结构,将图像以步骤一为全局概念生成,然后进行二次生成,提高了两个基准数据集的最新技术水平。
Feb, 2021
本文提出了一种利用稀疏注意力块和双线性池化捕捉细粒度图像特征之间高阶交互的记忆增强型稀疏注意力块,并引入新颖的医学概念生成网络来预测细粒度语义概念,并将其作为指导结合到自动生成医学报告的过程中,最终在MIMIC-CXR及图像字幕生成和医学报告生成多个领域的基准测试中,表现出了优异的性能。
Aug, 2022
本文提出了一种新的方法,通过使用标签机从医学报告中提取比较先前的信息,并将该先前信息整合到基于Transformer的模型中,从而更加真实和全面地生成医学报告。该方法测试表明效果优于之前的最先进模型,提供了一个有前景的方向来弥补医学报告生成中放射科医生和模型之间的知识差距。
May, 2023
本研究提出了一种基于自动医学图像解释的生成式语言模型的方法,用于从胸部X线图像中检测异常区域并生成相应文本,以降低放射科医生在撰写或叙述发现结果方面的工作量。
Jun, 2023
本文提出了一种多模态知识注入的 U-Transformer 模型,用于辅助医学影像报告的自动生成。实验结果表明,该模型在两个广泛使用的基准数据集IU-Xray和MIMIC-CXR上优于现有技术,并且注入先验知识可以提高模型性能。
Jun, 2023
该研究提出了一种新颖的多模态变压器网络,将胸部X光片(CXR)图像与相关的患者人口统计信息相结合,合成特定患者的放射学报告,并通过综合得出的语义文本嵌入和医学图像-derived视觉特征的变压器编码器-解码器网络,以提高报告生成的质量。
Nov, 2023
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题,我们引入了一种新颖的策略SERPENT-VLM,将自我完善的机制集成到MLLM框架中,通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性,在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示,从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本,从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext(ROCO)数据集上优于现有的基线方法,如LLaVA-Med、BiomedGPT等,并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展,为医学成像领域的自监督完善研究打开了新的研究路径。
Apr, 2024
本研究解决了现有X射线医学报告生成方法在提取有效信息和计算复杂性方面的不足。提出了一种上下文引导的高效生成框架,通过从训练集中检索样本以增强特征表示能力,从而生成高质量的医学报告。实验结果表明,该方法在多个数据集上具有显著的性能提升。
Aug, 2024