LMOD：用于大型视觉语言模型的多模态眼科学数据集与基准

Oct, 2024

LMOD：用于大型视觉语言模型的多模态眼科学数据集与基准

LMOD: A Large Multimodal Ophthalmology Dataset and Benchmark for Large Vision-Language Models

Zhenyue Qin, Yu Yin, Dylan Campbell, Xuansheng Wu, Ke Zou...

TL;DR本研究针对大型视觉语言模型在眼科学图像分析中的表现不足的问题，提出了LMOD数据集及基准。该数据集包含21,993张眼科图像，并针对模型在解剖理解、诊断分析和人口统计信息提取方面的表现进行了评估，发现目前的模型在处理眼科图像时仍存在显著不足，尤其是在诊断分析和空间推理能力上。

Abstract

Ophthalmology relies heavily on detailed Image Analysis for diagnosis and treatment planning. While Large Vision-Language Models (LVLMs) h

发现论文，激发创造

OphGLM:基于指令与对话训练的眼科大型语言与视觉助手

本文研究和构建了一个眼科大型多模型模型来进行眼科疾病评估和诊断，并通过病情相关知识数据和公开可用的实际医疗对话建立了一个新的眼科多模态指示和对话微调数据集。实验结果表明，该模型表现异常优秀，具有革命性的眼科临床应用潜力。

Jun, 2023

Ophtha-LLaMA2：一款用于眼科的大型语言模型

在医学领域中，通过使用预训练的大型语言模型（LLMs），我们成功构建了一个特别针对眼科疾病诊断的LLM，名为“Ophtha-LLaMA2”，并证明了其在眼科诊断中表现出了令人满意的准确性和效率，为眼科医生提供了改进的诊断支持工具。同时，该研究也展示了LLMs在眼科领域中的潜力和前景。

Dec, 2023

OmniMedVQA：医学LVLM的新大规模综合评估基准

我们介绍了OmniMedVQA，一个来自75个不同医疗数据集的医疗视觉问答基准，其中包括12个不同的模态和超过20个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难，甚至在医学专业化的模型中也表现出劣于通用领域模型的性能，这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。

Feb, 2024

眼泰: 一种用于眼科成像的多模式通用基础模型

EyeFound是一种多模态基础模型，通过学习无标签的多模态视网膜图像，能够有效地适应多个应用程序，并在诊断眼疾、预测全身性疾病事件和多模态问答等方面超越了先前的工作RETFound，提供了一个通用的解决方案，提高了模型性能，减轻了专家的标注负担，并促进了广泛的临床人工智能应用。

May, 2024

医学影像中多模态大型语言模型的实用性初探

利用Gemini和GPT-4V模型，本研究尝试基于两种模态医学图像数据进行分类、解释和分析，并发现Gemini在分类任务上略优于GPT-4V，而GPT-4V的回答主要是泛化的。该研究为多模态大型语言模型在视网膜眼底检查和肺部X射线图像等医学图像分析专项任务中的分类和解释提供了潜力，并识别了早期调查研究中的关键限制。

Jun, 2024

VisionUnite：一种增强临床知识的眼科视觉-语言基础模型

本研究针对眼科领域诊断方法的不足，提出了VisionUnite，一种结合临床知识的眼科创新视觉-语言基础模型。通过在124万对图像-文本配对上进行预训练，并在MMFundus数据集上进行微调，该模型在多种临床场景中表现优异，诊断能力与初级眼科医生相当，标志着眼科诊断与医学教育的重要进展。

Aug, 2024

GMAI-MMBench：面向通用医疗人工智能的综合多模态评估基准

本研究针对现有医疗领域的多模态评估基准存在的局限，如有限的临床相关性和评估不完整性，提出了GMAI-MMBench。该基准基于多样化的医学数据，包括285个数据集和4种感知粒度，旨在全面评估大型视觉语言模型在医疗应用中的有效性。研究显示，当前先进模型如GPT-4o的准确率仅为52\%，表明未来还有重大改进空间，有助于推动医疗AI的发展。

Aug, 2024

GMAI-MMBench：面向通用医学人工智能的综合多模态评估基准

本研究针对现有医学领域的多模态评估基准存在的不足，提出了GMAI-MMBench，一种涵盖广泛数据结构和多感知粒度的综合基准。研究表明，当前最先进的视觉语言模型在医学应用的准确率上仍有显著提升空间，这为未来的医学人工智能发展指明了方向。

Aug, 2024

EyeCLIP：用于多模态眼科图像分析的视觉语言基础模型

本研究解决了单一模态眼科基础模型在多模态眼病诊断中的局限性，提出了EyeCLIP作为新的视觉语言基础模型，利用277万幅多模态眼科图像和部分文本数据进行预训练。EyeCLIP在多个基准数据集上的评估表明，其在疾病分类、视觉问答和跨模态检索中表现出色，尤其在长尾场景下具备少量样本甚至零样本能力，显示出显著的临床应用潜力。

Sep, 2024

EyeCLIP：用于多模态眼科图像分析的视觉语言基础模型

本研究针对现有眼科基础模型多集中于单一模态的问题，提出了一种新的视觉语言基础模型EyeCLIP，通过结合超过277万的多模态眼科图像与部分文本数据，采用预训练策略有效整合多模态信息。EyeCLIP在多个基准数据集上验证了其在疾病分类、视觉问答及跨模态检索等任务中的先进表现，特别是在少样本甚至零样本学习中展现了显著优势。

Sep, 2024