OphGLM:基于指令与对话训练的眼科大型语言与视觉助手

Jun, 2023

OphGLM:基于指令与对话训练的眼科大型语言与视觉助手

OphGLM: Training an Ophthalmology Large Language-and-Vision Assistant based on Instructions and Dialogue

Weihao Gao, Zhuo Deng, Zhiyuan Niu, Fuju Rong, Chucheng Chen...

TL;DR本文研究和构建了一个眼科大型多模型模型来进行眼科疾病评估和诊断，并通过病情相关知识数据和公开可用的实际医疗对话建立了一个新的眼科多模态指示和对话微调数据集。实验结果表明，该模型表现异常优秀，具有革命性的眼科临床应用潜力。

Abstract

Large multimodal language models (LMMs) have achieved significant success in general domains. However, due to the significant differences between medical images and text and general web content, the performance o

发现论文，激发创造

利用大型语言模型自动化科学文章的分类和趋势分析：以眼科为例应用

提出了一种基于大型语言模型的自动化文章分类方法，主要关注眼科领域，但可扩展到其他领域，采用自然语言处理技术，包括零-shot学习的LLM模型，通过比较不同变种的BART，BERT以及其变种（如distilBERT，SciBERT，PubmedBERT，BioBERT），证明了LLM在无人干预的情况下，对大量眼科论文进行分类的有效性，通过趋势分析使得研究人员和临床医生能够轻松分类和检索相关论文，在文献综述、信息收集、以及不同学科领域内新兴科学趋势识别方面节省时间和精力，同时，该模型在其他科学领域的可扩展性也拓宽了其在促进研究和趋势分析方面的影响。

Aug, 2023

VisionFM：一种面向综合眼科人工智能的多模态多任务视觉基础模型

VisionFM是一个用340万张眼科图像预训练的基础模型，具有眼科疾病诊断、人工智能和合成数据等功能。

Oct, 2023

Ophtha-LLaMA2：一款用于眼科的大型语言模型

在医学领域中，通过使用预训练的大型语言模型（LLMs），我们成功构建了一个特别针对眼科疾病诊断的LLM，名为“Ophtha-LLaMA2”，并证明了其在眼科诊断中表现出了令人满意的准确性和效率，为眼科医生提供了改进的诊断支持工具。同时，该研究也展示了LLMs在眼科领域中的潜力和前景。

Dec, 2023

EyeGPT: 大型语言模型的眼科助理

通过三种优化策略，我们引入了专门设计用于眼科学的 EyeGPT，该模型的综合评估框架包括不同领域的眼科学数据集、不同用户和多样化的查询意图。该模型在可理解性、可信度和同理心方面与人类眼科医生相当，为开发专门的大型语言模型在眼科学中提供了有价值的见解。

Feb, 2024

眼泰: 一种用于眼科成像的多模式通用基础模型

EyeFound是一种多模态基础模型，通过学习无标签的多模态视网膜图像，能够有效地适应多个应用程序，并在诊断眼疾、预测全身性疾病事件和多模态问答等方面超越了先前的工作RETFound，提供了一个通用的解决方案，提高了模型性能，减轻了专家的标注负担，并促进了广泛的临床人工智能应用。

May, 2024

HuatuoGPT-Vision，面向大规模注入医学视觉知识的多模态语言模型

通过使用 PubMedVision 数据集，我们对医学图像和文本进行了精炼和重构，从而改善了当前 MLLM 的医学多模态能力，并在医学多模态场景中展现了卓越的性能。

Jun, 2024

临床眼科的专业视觉语言模型

基于图像和语言的模型（VLMs）在处理眼底照片的疾病分期和患者转诊方面表现出比基础 VLMs 更高的性能，并且与初级眼科医生的诊断性能相当，这证明了我们基于课程设置的方法为使基础 VLMs 专门处理真实世界的临床任务提供了一个指南。

Jul, 2024

VisionUnite：一种增强临床知识的眼科视觉-语言基础模型

本研究针对眼科领域诊断方法的不足，提出了VisionUnite，一种结合临床知识的眼科创新视觉-语言基础模型。通过在124万对图像-文本配对上进行预训练，并在MMFundus数据集上进行微调，该模型在多种临床场景中表现优异，诊断能力与初级眼科医生相当，标志着眼科诊断与医学教育的重要进展。

Aug, 2024

EyeCLIP：用于多模态眼科图像分析的视觉语言基础模型

本研究解决了单一模态眼科基础模型在多模态眼病诊断中的局限性，提出了EyeCLIP作为新的视觉语言基础模型，利用277万幅多模态眼科图像和部分文本数据进行预训练。EyeCLIP在多个基准数据集上的评估表明，其在疾病分类、视觉问答和跨模态检索中表现出色，尤其在长尾场景下具备少量样本甚至零样本能力，显示出显著的临床应用潜力。

Sep, 2024

EyeCLIP：用于多模态眼科图像分析的视觉语言基础模型

本研究针对现有眼科基础模型多集中于单一模态的问题，提出了一种新的视觉语言基础模型EyeCLIP，通过结合超过277万的多模态眼科图像与部分文本数据，采用预训练策略有效整合多模态信息。EyeCLIP在多个基准数据集上验证了其在疾病分类、视觉问答及跨模态检索等任务中的先进表现，特别是在少样本甚至零样本学习中展现了显著优势。

Sep, 2024