MM-Retinal: 知识增强的基础预训练及其在眼底图像文本专业领域中的应用

May, 2024

MM-Retinal: 知识增强的基础预训练及其在眼底图像文本专业领域中的应用

MM-Retinal: Knowledge-Enhanced Foundational Pretraining with Fundus Image-Text Expertise

Ruiqi Wu, Chenran Zhang, Jianle Zhang, Yi Zhou, Tao Zhou...

TL;DR提出了 MM-Retinal 基金 us 图像分析模型，该模型通过多模态数据集以及 KeepFIT 知识增强基础预训练模型，实现了六个未见任务中的最先进性能，并在零样本和少样本场景中展现了出色的泛化能力。

Abstract

Current fundus image analysis models are predominantly built for specific tasks relying on individual datasets. The learning process is usually based on data-driven paradigm without prior knowledge, resulting in poor transferability and generalizability. To address this issue, we propo

fundus image analysis multi-modal dataset knowledge-enhanced foundational pretraining model state-of-the-art performance zero-shot and few-shot scenarios

发现论文，激发创造

基于视网膜的基础语言 - 图像模型（FLAIR）：通过文本监督编码专业知识

FLAIR 是一个用于通用视网膜底层图像理解的预训练视觉语言模型，它整合了专家领域知识，具有强大的泛化能力和优于全面训练模型的性能，尤其在少样本情况下，FLAIR 表现出色。

Aug, 2023

RET-CLIP: 一种用临床诊断报告进行预训练的视网膜图像基准模型

本文开发了一种 CLIP 风格的视网膜图像基础模型 RET-CLIP，该模型在 193,865 名患者的数据集上进行特训，能够在四个关键的诊断类别中优于现有基准，包括糖尿病视网膜病变，青光眼，多疾病诊断和多疾病的多标签分类。

May, 2024

使用包含 400 多种疾病知识的视觉语言基础模型进行常见和罕见的眼底疾病识别

本文介绍了一种使用超过 400 种眼底疾病信息的视网膜视觉语言基础模型（RetiZero），该模型通过收集 341,896 幅眼底图像和相关文本描述，从 29 个公开数据集、180 本眼科书籍和在线资源中获取。RetiZero 在零样本视网膜疾病识别、图像检索、内部领域和跨领域视网膜疾病分类以及有限样本微调等各种下游任务中取得了出色的性能，并能在不需要重新训练模型的情况下，通过零样本和图像检索方法实现与有经验的眼科医生相媲美的临床评估，从而加强了 RetiZero 基础模型在临床实施中的应用能力。

Jun, 2024

探索基础模型在眼底图像上的迁移性：应用于高血压性视网膜病变

使用基于 Imagnet 预训练的深度学习模型是处理医学图像分类中数据稀缺性的传统解决方案。然而，相关文献支持此策略可能由于领域之间的高差异性而带来有限的增益。目前，适应领域专业化基础模型的范式证明是一种有前景的替代选择。本文通过 CGI-HRDC 高血压性视网膜病变诊断的眼底图像挑战赛，评估了最近发布的视觉 - 语言基础模型 FLAIR 的可迁移性。我们探索了使用 FLAIR 特征作为眼底图像分类的起点的潜力，并将其性能与基于 Imagenet 初始化的两种流行的迁移学习方法（线性探测和微调）进行了比较。我们的实证观察表明，在任何情况下，传统策略的使用都提供了性能增益。相比之下，直接从 FLAIR 模型进行迁移可以获得 2.5% 的增益。当对整个网络进行微调时，性能差距增加到 4%。在这种情况下，我们展示了通过使用分类器的线性探测初始化避免特征退化，以最佳方式重用丰富的预训练特征。尽管使用线性探测的直接迁移性仍然提供有限的性能，但我们相信 FLAIR 等基础模型将推动基于深度学习的眼底图像分析的发展。

Jan, 2024

使用一半的数据和 400 倍少的计算资源训练高性能视网膜基础模型

人工智能在医学领域具有巨大潜力，但传统上受限于缺乏大量的数据集来训练模型。我们提出了一种新颖的 Token Reconstruction 目标，用于训练 RETFound-Green，这是一个只使用了 75,000 张公开可用图像和 400 倍较少计算资源进行训练的视网膜基础模型。RETFound-Green 在效率和性能方面表现出色，并且可以用于其他领域的扩展。

Apr, 2024

RetiGen：利用多视场眼底图像进行广义视网膜诊断的框架

该研究介绍了一种用于增强医学图像领域普适性的新框架，特别关注于利用未标记的多视角彩色底片照片。与依赖单视图成像数据且在不同临床场景中通用性有挑战的传统方法不同，我们的方法利用未标记的多视角成像数据中的丰富信息来提高模型的稳健性和准确性。通过结合类别平衡方法、测试时间适应技术和多视角优化策略，我们解决了常常影响机器学习模型在实际应用中性能的关键问题 —— 领域偏移。与现有基线方法和最先进方法相结合，实验证明我们的方法在与其它领域普适性和测试时间优化方法的比较中始终表现出色。我们还展示了我们的在线方法改进了所有现有技术。我们的框架改进了领域普适性能力，通过促进对新的未知数据集的在线适应，为实际部署提供了实用解决方案。我们的代码可在此 https URL 中获得。

Mar, 2024

SynFundus：生成数百万样本和多种疾病标注的合成眼底图像数据集

在医学影像领域，由于隐私限制导致大规模数据集的稀缺性成为开发大型医学模型的重要障碍。为解决这个问题，我们引入了 SynFundus-1M，这是一个高质量的合成数据集，包含超过 100 万张视网膜底部图像以及详尽的疾病和病理学注释。SynFundus-1M 是由去噪扩散概率模型生成的，并且 SynFundus-Generator 和 SynFundus-1M 在主流公开真实数据集上的优秀 Frechet Inception Distance（FID）分数超过了现有方法。此外，眼科医生的评估验证了辨别这些合成图像与真实图像的困难程度，进一步证实了 SynFundus-1M 的真实性。通过大量实验证明，卷积神经网络（CNN）和视觉转换器（ViT）都可以从 SynFundus-1M 的预训练或直接训练中获益。相比 ImageNet 或 EyePACS 等数据集，使用 SynFundus-1M 训练的模型不仅在各种下游任务上表现更好，并且收敛速度更快。

Dec, 2023

针对对抗性视网膜图像合成的研究

本文提出了一种通过血管分割技术直接从数据中学习综合眼底图像的方法，并使用基于对抗学习的图像转换技术将二进制血管树映射到新的视网膜图像，其实验结果以定量方法证实生成的图像保留了真实图像集合的大部分质量。

Jan, 2017

基于眼底增强视网膜疾病感知蒸馏模型的 OCT 图像视网膜疾病分类

提出了一种利用非配对的眼底图像增强光学相干断层扫描模型的新方法，用于眼底疾病分类，实验结果证明该方法优于单模态、多模态和最先进的蒸馏方法。

Aug, 2023

用生成模型解耦视网膜图像的表示

通过引入新颖的人群模型和基于距离相关性的解缠结损失函数，我们成功实现了视网膜底图像的控制性和高度逼真的生成，并揭示了患者属性和技术混杂因素在图像生成中的复杂关系。

Feb, 2024