Apr, 2024

DeViDe:基于分面的医学知识,以提升医学视觉 - 语言预训练

TL;DR在胸片 X 光的视觉语言预训练方面取得了显著进展,主要通过利用配对的放射照片和放射学报告。为了解决医学知识编码的挑战,我们提出了一种新颖的基于 Transformer 的方法 DeViDe,它利用来自开放网络的放射照片描述。DeViDe 将具体定义和放射学报告与开放网络中疾病的通用视觉特征相结合,提供了对知识的整体快照。在零样本设置下,DeViDe 在外部数据集上表现出与全监督模型相当的性能,并在三个大规模数据集上达到了最先进的结果。另外,将 DeViDe 在四个下游任务和六个分割任务上微调,展示了其在不同分布的数据上优越的性能。