Apr, 2024

基于知识增强的医学 CXR 可视化语言预训练模型

TL;DR我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练(GK-MVLP)框架,通过细粒度对应医学知识的解剖区域级视觉特征和文本特征,将医学知识地面化到适当的解剖区域,优化胸部 X 光图像和放射学报告的对齐,并在下游任务上展现出与或超过现有技术的竞争力,包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。