medical imaging plays a significant role in clinical practice of medical
diagnosis, where the text reports of the images are essential in understanding
them and facilitating later treatments. By generating the reports
automatically, it is beneficial to help lighten the burden of radiol
通过结合结构化患者数据和非结构化临床记录,我们提出了一种新颖的多模态深度神经网络框架,用于生成描述医学图像结果的胸部 X 射线检查报告,并通过引入条件交叉多头注意力模块来融合这些异构数据模态,弥合视觉和文字数据之间的语义差距。与仅依赖图像的模型相比,实验证明通过使用附加模态可以显著改善结果,在 ROUGE-L 指标上达到了文献相关最高的性能。此外,我们采用了人工评估和临床语义相似度测量以及词重叠度指标来提高定量分析的深度。由经过认证的放射科医师进行的人工评估确认了该模型在识别高级结果方面的准确性,但也强调需要更多的改进以捕捉细微的细节和临床背景。