Jan, 2024

MISS:一个用于医学视觉问答的生成预训练和微调方法

TL;DR本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架(MISS),将医学 VQA 作为生成任务,并通过多任务学习对齐图像 - 文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于 VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。