Dec, 2023
跨模态医学图像-报告检索的掩码对比重建
Masked Contrastive Reconstruction for Cross-modal Medical Image-Report
Retrieval
TL;DR提出了一种名为蒙版对比与重建(MCR)的高效VLP框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的GPU内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了fine-grained的模态对齐所需要的gpu内存和时间。在MIMIC-CXR数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。