临床眼科的专业视觉语言模型

Jul, 2024

Specialist vision-language models for clinical ophthalmology

Robbie Holland, Thomas R. P. Taylor, Christopher Holmes, Sophie Riedl, Julia Mai...

TL;DR基于图像和语言的模型（VLMs）在处理眼底照片的疾病分期和患者转诊方面表现出比基础 VLMs 更高的性能，并且与初级眼科医生的诊断性能相当，这证明了我们基于课程设置的方法为使基础 VLMs 专门处理真实世界的临床任务提供了一个指南。

Abstract

Clinicians spend a significant amount of time reviewing medical images and transcribing their findings regarding patient diagnosis, referral and treatment in text form. vision-language models (VLMs), which automatically interpret images and summarize their findings as text, have enormo

发现论文，激发创造

OphGLM:基于指令与对话训练的眼科大型语言与视觉助手

本文研究和构建了一个眼科大型多模型模型来进行眼科疾病评估和诊断，并通过病情相关知识数据和公开可用的实际医疗对话建立了一个新的眼科多模态指示和对话微调数据集。实验结果表明，该模型表现异常优秀，具有革命性的眼科临床应用潜力。

Jun, 2023

在眼科中评估大型语言模型

本研究评估了三个不同的大型语言模型（GPT-3.5、GPT-4和PaLM2）在回答眼科专业问题方面的表现，并将其与三个不同的专业人员群体（医学本科生、医学硕士和主治医师）进行了比较。结果显示，GPT-4代表的LM在眼科领域表现更好，未来在医学教育和临床决策方面将带来意想不到的好处。

Nov, 2023

关注临床BERT：研究语言模型在糖尿病视网膜病变表型识别中的推广性能

糖尿病性眼病是全球失明的主要原因之一。从糖尿病性眼病的临床文本中提取证据，推断相关属性，以监测疾病发展并避免失明，这些任务并不需要基于临床数据预训练的语言模型，强调了不将临床语言数据作为单一的同质领域的重要性。

Nov, 2023

Ophtha-LLaMA2：一款用于眼科的大型语言模型

在医学领域中，通过使用预训练的大型语言模型（LLMs），我们成功构建了一个特别针对眼科疾病诊断的LLM，名为“Ophtha-LLaMA2”，并证明了其在眼科诊断中表现出了令人满意的准确性和效率，为眼科医生提供了改进的诊断支持工具。同时，该研究也展示了LLMs在眼科领域中的潜力和前景。

Dec, 2023

MultiMedEval：用于评估医学视觉-语言模型的基准和工具包

MultiMedEval是一个开源工具包，旨在公平且可重复评估大型医疗视觉语言模型（VLM），通过23个数据集、11个医学领域的6个多模态任务来综合评估模型的性能，并通过广泛采纳的任务和性能指标确保模型的整体泛化能力，在github上提供了一个简单的界面和设置过程，可以仅仅通过几行代码来评估任何VLM，旨在简化VLM评估的复杂流程，推动未来模型的公平和统一基准测试。

Feb, 2024

关于医学图像分析的大型视觉语言模型的实证研究

本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性，通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。

Feb, 2024

医疗报告生成和视觉问答的视觉语言模型综述

医学视觉语言模型结合了计算机视觉和自然语言处理，用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展，重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景，解释了如何将两个领域的技术集成到视觉语言模型中，以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索，最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析，以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战，并提出了未来的发展方向，包括增强临床有效性和解决患者隐私问题。总的来说，我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。

Mar, 2024

基于知识的视觉语言模型调整策略：为住院医生培训构建筛查乳腺X线照片的独特案例集

本研究介绍了一种旨在将可见语言模型（VLM）巧妙地应用于医学领域的框架，采用选择性采样和难负样本挖掘技术以提升检索任务的性能。在两个不同的VLM（MedCLIP和ALBEF）上实施我们的方法，并使用包含乳房X光和其相应报告的两个大型数据集来验证其有效性。通过我们的方法，在图像文本检索任务的Recall@K性能方面观察到显著的改善。

May, 2024

VisionUnite：一种增强临床知识的眼科视觉-语言基础模型

本研究针对眼科领域诊断方法的不足，提出了VisionUnite，一种结合临床知识的眼科创新视觉-语言基础模型。通过在124万对图像-文本配对上进行预训练，并在MMFundus数据集上进行微调，该模型在多种临床场景中表现优异，诊断能力与初级眼科医生相当，标志着眼科诊断与医学教育的重要进展。

Aug, 2024

LMOD：用于大型视觉语言模型的多模态眼科学数据集与基准

本研究针对大型视觉语言模型在眼科学图像分析中的表现不足的问题，提出了LMOD数据集及基准。该数据集包含21,993张眼科图像，并针对模型在解剖理解、诊断分析和人口统计信息提取方面的表现进行了评估，发现目前的模型在处理眼科图像时仍存在显著不足，尤其是在诊断分析和空间推理能力上。

Oct, 2024