Dec, 2023

跨模态医学图像 - 报告检索的掩码对比重建

TL;DR提出了一种名为蒙版对比与重建(MCR)的高效 VLP 框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。