RET-CLIP: 一种用临床诊断报告进行预训练的视网膜图像基准模型

May, 2024

RET-CLIP: 一种用临床诊断报告进行预训练的视网膜图像基准模型

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports

Jiawei Du, Jia Guo, Weihang Zhang, Shengzhu Yang, Hanruo Liu...

TL;DR本文开发了一种 CLIP 风格的视网膜图像基础模型 RET-CLIP，该模型在 193,865 名患者的数据集上进行特训，能够在四个关键的诊断类别中优于现有基准，包括糖尿病视网膜病变，青光眼，多疾病诊断和多疾病的多标签分类。

Abstract

The vision-language foundation model is increasingly investigated in the fields of computer vision and natural language processing, yet its exploration in ophthalmology and broader →

vision-language foundation model ophthalmology medical applications retinal image foundation model diabetic retinopathy

发现论文，激发创造

VisionCLIP: 一个基于 Med-AIGC 的伦理语言 - 图像基础模型，用于可泛化的视网膜图像分析

利用 100 万个开放源合成的眼底图像与自然语言描述，构建具有伦理基础的语言 - 图像模型 VisionCLIP，进行视网膜图像分析，并在零样本情况下在三个外部数据集上取得了竞争性能。

Mar, 2024

RemoteCLIP: 远程感知的视觉语言基础模型

RemoteCLIP 是第一个用于遥感领域的视觉 - 语言基础模型，利用数据扩充和转换方法进行预训练，可用于零样本分类、图像文本检索和物体计数等任务，并在 16 个数据集上均优于基线模型。

Jun, 2023

使用包含 400 多种疾病知识的视觉语言基础模型进行常见和罕见的眼底疾病识别

本文介绍了一种使用超过 400 种眼底疾病信息的视网膜视觉语言基础模型（RetiZero），该模型通过收集 341,896 幅眼底图像和相关文本描述，从 29 个公开数据集、180 本眼科书籍和在线资源中获取。RetiZero 在零样本视网膜疾病识别、图像检索、内部领域和跨领域视网膜疾病分类以及有限样本微调等各种下游任务中取得了出色的性能，并能在不需要重新训练模型的情况下，通过零样本和图像检索方法实现与有经验的眼科医生相媲美的临床评估，从而加强了 RetiZero 基础模型在临床实施中的应用能力。

Jun, 2024

使用一半的数据和 400 倍少的计算资源训练高性能视网膜基础模型

人工智能在医学领域具有巨大潜力，但传统上受限于缺乏大量的数据集来训练模型。我们提出了一种新颖的 Token Reconstruction 目标，用于训练 RETFound-Green，这是一个只使用了 75,000 张公开可用图像和 400 倍较少计算资源进行训练的视网膜基础模型。RETFound-Green 在效率和性能方面表现出色，并且可以用于其他领域的扩展。

Apr, 2024

MM-Retinal: 知识增强的基础预训练及其在眼底图像文本专业领域中的应用

提出了 MM-Retinal 基金 us 图像分析模型，该模型通过多模态数据集以及 KeepFIT 知识增强基础预训练模型，实现了六个未见任务中的最先进性能，并在零样本和少样本场景中展现了出色的泛化能力。

May, 2024

探索 CLIP 在糖尿病视网膜病变领域泛化中的迁移学习能力

糖尿病视网膜病变（DR）是视力障碍的主要原因之一，需要早期检测和治疗。本文研究了糖尿病视网膜病变（DR）分类问题中跨域泛化的挑战，通过使用 CLIP 模型在不同领域和数据分布下进行转化学习，引入了一种名为 CoOpLVT 的多模态微调策略来增强上下文优化，实验结果表明该方法相较于基线模型提高了 1.8% 的 F1 分数，为 DR 分类的有效跨域泛化提供了希望。

Aug, 2023

探索基础模型在眼底图像上的迁移性：应用于高血压性视网膜病变

使用基于 Imagnet 预训练的深度学习模型是处理医学图像分类中数据稀缺性的传统解决方案。然而，相关文献支持此策略可能由于领域之间的高差异性而带来有限的增益。目前，适应领域专业化基础模型的范式证明是一种有前景的替代选择。本文通过 CGI-HRDC 高血压性视网膜病变诊断的眼底图像挑战赛，评估了最近发布的视觉 - 语言基础模型 FLAIR 的可迁移性。我们探索了使用 FLAIR 特征作为眼底图像分类的起点的潜力，并将其性能与基于 Imagenet 初始化的两种流行的迁移学习方法（线性探测和微调）进行了比较。我们的实证观察表明，在任何情况下，传统策略的使用都提供了性能增益。相比之下，直接从 FLAIR 模型进行迁移可以获得 2.5% 的增益。当对整个网络进行微调时，性能差距增加到 4%。在这种情况下，我们展示了通过使用分类器的线性探测初始化避免特征退化，以最佳方式重用丰富的预训练特征。尽管使用线性探测的直接迁移性仍然提供有限的性能，但我们相信 FLAIR 等基础模型将推动基于深度学习的眼底图像分析的发展。

Jan, 2024

医学影像中的 CLIP 技术综述

通过对 Contrastive Language-Image Pre-training (CLIP) 在医学成像领域中的深入探索，本综述论文旨在为医学图像分析领域的研究人员提供对 CLIP 范式及其潜在影响的整体理解。

Dec, 2023

基于视网膜的基础语言 - 图像模型（FLAIR）：通过文本监督编码专业知识

FLAIR 是一个用于通用视网膜底层图像理解的预训练视觉语言模型，它整合了专家领域知识，具有强大的泛化能力和优于全面训练模型的性能，尤其在少样本情况下，FLAIR 表现出色。

Aug, 2023

RadCLIP：通过对比语言 - 图像预训练增强放射学图像分析

人工智能与放射学的整合标志着医学诊断的一个转型时代，采用视觉基础模型改进放射学图像分析，引入 RadCLIP 用于优化放射学图像分析，包括创新的三维切片池化机制和多样的放射学图像 - 文本数据集，评估结果显示 RadCLIP 可以有效对齐放射学图像与对应的文本标注，并提供强大的视觉支持。

Mar, 2024