医学视觉语言模型的少样本适应
该研究介绍了一种适用于医学领域的自我监督视觉语言预训练模型Medical X-VL,展示该模型在医学领域的视觉语言任务中的超越性能,并证明了在新疾病诊断和监测人类错误等方面,Oversight AI具有广泛的应用潜力。
Aug, 2022
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
本文提出了一种黑盒方法Linear Feature Alignment(LFA)实现预处理图像和文字特征对齐,无需访问模型权重、训练速度快、可用于有监督和无监督训练,甚至可以用于对齐单模型计算出的图像和文本特征。在11个图像和2个视频数据集上进行的广泛实验表明,我们的方法甚至可以超过软提示学习方法。
Apr, 2023
Med-Flamingo是一种适应于医学领域的多模态少样本学习器,能够通过从出版物和教材中的医学图像-文本数据进行预训练,提高生成式医学视觉问答(VQA)的性能,并在医师评估和干预性应用中首次实现了多模态医学少样本适应。
Jul, 2023
通过部分冻结的简单微调变体和上下文化标签,提出了一种在有限样本大小下超越传统微调方法的方法,从而显著提高了医学图像的语义嵌入区分度,使得在1-shot设置下与常用的one-hot标签和其他语义监督方法相比性能提高了3%-5%。
Dec, 2023
多模态模型的少样本适应方法在医学成像等领域仍有待提高,研究者提出了基于提示、适配器和外部知识的三种技术方法,本论文对这些方法进行了综述及对比,并推导出了多模态模型少样本适应的泛化误差界限及相应解决方案。
Jan, 2024
通过在医学图像分析中引入疾病相关的上下文提示,利用预训练的视觉-语言模型(VLMs)的联合能力,提出了一种新的疾病原型学习框架,有效地提升了VLMs对新疾病概念的理解和性能,相较于现有方法有明显的提升。
May, 2024
近期关于Vision-Language Models(VLMs)的少样本适应研究进展大大提高了其泛化能力,但未充分考虑Parameter-Efficient Fine-Tuning(PEFT)的最新进展。因此,本文引入了Low-Rank Adaptation(LoRA)在少样本适应学习中,并在11个数据集上展示了其潜力,与最先进的基于prompt和adapter的方法进行对比。令人惊讶的是,我们的简单CLIP-LoRA方法在所有目标任务(所有数据集和样本数)上保持相同的超参数的同时,显著提高了性能。当然,我们的结果并不否定普遍学习和基于适配器的研究的潜力,但我们相信我们的强基准方法可用于评估少样本VLMs中这些新兴主题的进展。
May, 2024
本研究介绍了一种旨在将可见语言模型(VLM)巧妙地应用于医学领域的框架,采用选择性采样和难负样本挖掘技术以提升检索任务的性能。在两个不同的VLM(MedCLIP和ALBEF)上实施我们的方法,并使用包含乳房X光和其相应报告的两个大型数据集来验证其有效性。通过我们的方法,在图像文本检索任务的Recall@K性能方面观察到显著的改善。
May, 2024
本研究针对医学图像分类中标注样本缺乏的问题,提出一种新颖的方法MedUnA,通过视觉-文本对齐实现无监督学习。研究表明,该方法在胸部X光、眼底和皮肤病变图像等多种数据中显著提高了分类准确性,展现出强大的应用潜力。
Sep, 2024