基于渐进式Transformer的放射学报告生成
研究了医学影像的自动生成报告问题,提出了多任务学习框架、注意力机制和递归神经网络以解决标签预测、异常区域定位和长段落生成等难点问题,并在两个公共数据集上进行了验证。
Nov, 2017
本文提出了使用记忆驱动Transformer来生成放射学报告,实验证明该方法可以以更高的质量、更长的长度和更多的医学术语产生放射学报告,此为我们所知第一次在MIMIC-CXR上实现放射学报告的生成结果。
Oct, 2020
本文提出了一种利用稀疏注意力块和双线性池化捕捉细粒度图像特征之间高阶交互的记忆增强型稀疏注意力块,并引入新颖的医学概念生成网络来预测细粒度语义概念,并将其作为指导结合到自动生成医学报告的过程中,最终在MIMIC-CXR及图像字幕生成和医学报告生成多个领域的基准测试中,表现出了优异的性能。
Aug, 2022
本文提出了一种多模态知识注入的 U-Transformer 模型,用于辅助医学影像报告的自动生成。实验结果表明,该模型在两个广泛使用的基准数据集IU-Xray和MIMIC-CXR上优于现有技术,并且注入先验知识可以提高模型性能。
Jun, 2023
该研究提出了一种新颖的多模态变压器网络,将胸部X光片(CXR)图像与相关的患者人口统计信息相结合,合成特定患者的放射学报告,并通过综合得出的语义文本嵌入和医学图像-derived视觉特征的变压器编码器-解码器网络,以提高报告生成的质量。
Nov, 2023
尽管现有方法经常会在基于文本的报告中凭空想象细节,而不能准确反映图像内容,但《Radiology Report Generation(R2Gen)》展示了多模态大型语言模型(MLLMs)如何自动化生成准确和连贯的放射学报告。为了缓解这个问题,我们引入了一种新颖的策略SERPENT-VLM,将自我完善的机制集成到MLLM框架中,通过利用生成的放射学文本的上下文表示和汇总图像表示之间的相似性,在标准因果语言建模目标的基础上采用独特的自监督损失来完善图像-文本表示,从而使模型能够通过给定图像和生成文本之间的动态交互来审视和对齐生成的文本,从而减少幻觉并持续增强细微的报告生成能力。SERPENT-VLM在IU X-ray和Radiology Objects in COntext(ROCO)数据集上优于现有的基线方法,如LLaVA-Med、BiomedGPT等,并且证明在嘈杂的图像环境中具有稳健性。定性案例研究强调了MLLM框架在R2Gen中向更复杂方向发展的重要进展,为医学成像领域的自监督完善研究打开了新的研究路径。
Apr, 2024
本研究解决了放射报告生成过程中的评价局限,提出利用变压器模型从胸部X光片生成放射报告的方法,展现出在生成速度和效果上优于传统LSTM模型的优势。我们强调在评估生成报告时应结合语言生成和分类指标,以确保报告的连贯性和诊断价值。
Aug, 2024
本研究解决了手动编写放射学报告的时间消耗和人为错误问题,通过提出一个新的框架,利用视觉增强的大语言模型进行医疗报告生成。结果显示,该资源高效的框架在生成具有强医疗背景理解和高精度的患者特定报告方面,表现出色,推动了医疗领域的临床自动化。
Oct, 2024
本研究针对手动注释放射学报告耗时且劳动强度大的问题,提出了一种新颖的自动报告生成方法R2Gen-Mamba。该方法结合了Mamba的高效序列处理和Transformer的上下文优势,显著提升了训练和推理的效率,同时生成高质量报告。实验结果表明,R2Gen-Mamba在报告质量和计算效率方面超过了多种先进方法。
Oct, 2024
本研究针对自动生成放射学报告所面临的复杂性和多样性问题,提出了一种稳健的报告生成系统设计方法。通过整合不同模块并借鉴以往研究的经验和文献中的最佳实践,研究结果表明,该系统可以提高自动报告生成的效果,帮助放射科医生做出决策,加速诊断流程,从而改善医疗服务,挽救生命。
Nov, 2024