Jul, 2023

M-FLAG: 冻结语言模型和潜空间几何优化的医学视觉语言预训练

TL;DR该研究提出了一种名为Medical vision-language pre-training with Frozen language models and Latent spAce Geometry optimization (M-FLAG)的模型预训练方法,使用冻结的语言模型增强稳定性和效率,引入新的正交损失以谐调潜在空间几何结构,并在医学图像分类、分割和对象检测等三个下游任务中进行了广泛实验,结果显示M-FLAG显著优于现有的医学视觉语言预训练方法并将参数数量减少了78%,在只使用1%的RSNA数据的情况下,在分割任务上实现了出色的表现,甚至超过了使用100%数据进行微调的ImageNet预训练模型。