Jul, 2024

CXR-Agent: 胸部X光解读的视觉语言模型及具备不确定性认知的放射学报告

TL;DR通过对Chest X-ray照片的解释和生成自然语言描述,结合高级推理,评估可用于医学报告生成的视觉-语言模型的性能,发现这些模型往往会产生具有自信的语言,从而导致临床解释的减慢。因此,我们开发了一种基于Agent的视觉-语言方法,使用线性探测和短语锚定工具生成基于不确定性的放射学报告,准确定位和描述病理学。通过开发评估平台进行用户研究,结合自然语言处理指标、Chest X-ray基准和呼吸专家的临床评估,我们的结果显示出在AI生成报告的准确性、解释性和安全性方面的相当大的改进。同时,强调需要更大规模的配对(照片和报告)数据集以及数据扩增来解决这些大型视觉-语言模型中的过拟合问题。