Jul, 2023

利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练,用于医学视觉问答

TL;DR本文提出了一种新的自我监督方法来处理医学图像视觉问答问题,通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示,预训练模型后将其转移到下游的医学 VQA 任务中,已在三个公开的医学 VQA 数据集上取得了最先进的表现,具有显着的准确度提高。