Oct, 2024

LMOD:用于大型视觉语言模型的多模态眼科学数据集与基准

TL;DR本研究针对大型视觉语言模型在眼科学图像分析中的表现不足的问题,提出了LMOD数据集及基准。该数据集包含21,993张眼科图像,并针对模型在解剖理解、诊断分析和人口统计信息提取方面的表现进行了评估,发现目前的模型在处理眼科图像时仍存在显著不足,尤其是在诊断分析和空间推理能力上。