Jun, 2024
医学表征学习的视觉-语言对比方法的基准评估
Benchmarking Vision-Language Contrastive Methods for Medical
Representation Learning
TL;DR我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下调查了八个对比学习方法,并使用来自四个数据集的280万个图像-文本对进行了训练,并在25个下游任务上进行了评估,包括分类(零样本和线性探测),图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明,对于第一个问题,我们的答案是肯定的;对于第二个问题,我们的答案是否定的,而且学习细粒度特征具有益处。最后,我们公开了我们的代码。