Sep, 2024

EyeCLIP:用于多模态眼科图像分析的视觉语言基础模型

TL;DR本研究针对现有眼科基础模型多集中于单一模态的问题,提出了一种新的视觉语言基础模型EyeCLIP,通过结合超过277万的多模态眼科图像与部分文本数据,采用预训练策略有效整合多模态信息。EyeCLIP在多个基准数据集上验证了其在疾病分类、视觉问答及跨模态检索等任务中的先进表现,特别是在少样本甚至零样本学习中展现了显著优势。