LiteGPT：用于联合胸部X射线定位和分类任务的大型视觉-语言模型

Jul, 2024

LiteGPT：用于联合胸部X射线定位和分类任务的大型视觉-语言模型

LiteGPT: Large Vision-Language Model for Joint Chest X-ray Localization and Classification Task

Khai Le-Duc, Ryan Zhang, Ngoc Son Nguyen, Tan-Hanh Pham, Anh Dao...

TL;DR我们提出了一种统一的框架 - LiteGPT，用于医学图像识别，并利用多个预训练的视觉编码器来提高视觉-语言模型的性能，我们是首次将视觉-语言模型应用于医学图像的联合定位和分类任务，并且在胸部X射线的疾病定位任务上，我们提供了基准性能，最后，在经过充分测试的VinDr-CXR数据集的图像分类任务中，我们确立了新的最佳性能标准。

Abstract

vision-language models have been extensively explored across a wide range of tasks, achieving satisfactory performance; however, their application in medical imaging remains underexplored. In this work, we propos

发现论文，激发创造

生物医学视觉语言处理的大规模领域特定预训练

本文介绍了BiomedCLIP在生物医学视觉语言处理方面的应用，该方法针对生物医学VLP进行改进和优化，实验结果显示，BiomedCLIP已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型，且在某些领域甚至胜过了目前的最新模型。

Mar, 2023

ELVIS: 通过 Intra-modal 相似度增强视觉语言预训练中的局部性能力

ELVIS 是一种局部感知的 Visual Language Pre-training 方法，旨在增强自然语言处理对放射学文本和 X 光报告中位置指示的理解能力，通过在无需昂贵注释的情况下，利用大量的匹配图像和文本对来增强局部性，可以更好地定位异常，提高细粒度诊断的准确性。

Apr, 2023

XrayGPT: 医学视觉语言模型用于胸部X光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉-语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023

ELIXR: 通过对大型语言模型和医学成像视觉编码器的对齐，实现通用的X射线人工智能系统

ELIXR是一种用于CXR AI的强大而多功能的方法，它在零样本和数据高效领域取得了显著结果，并在CXR图像分类、语义搜索和CXR视觉语言任务中表现出良好的性能。

Aug, 2023

CXR-CLIP：大规模胸部X光照片语言-图像预训练

本文研究了利用大规模图像-文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像-标签对为图像-文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL和TCL，来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外，扩大数据集能够提高我们预训练模型的分类性能，尽管在检索性能方面有所牺牲。代码可在此网址获得。

Oct, 2023

LT-ViT：用于多标签胸部X射线分类的视觉Transformer

利用LT-ViT来从多个尺度聚合信息，实现对胸部X光图像进行纯可视化模型训练，其优于基于纯ViTs的现有方法，在两个公开CXR数据集上表现出最先进的性能，并且对于其他预训练方法具有泛化性且不依赖于模型初始化，并且能够实现模型的可解释性而无需使用grad-cam及其变种。

Nov, 2023

G2D：全球到密集射线学习的视觉-语言预训练

该论文提出了一种名为G2D的新型VLP框架，通过伪分割任务与全局视觉语言对齐相结合，学习得到密集且语义化的图片表示，以在6个医学成像任务和25种疾病中取得明显改进的性能，尤其在细粒度的语义分割任务中，甚至在只使用1%的训练数据进行微调时，也能超过同类模型的性能。

Dec, 2023

DeViDe：基于分面的医学知识，以提升医学视觉-语言预训练

在胸片 X 光的视觉语言预训练方面取得了显著进展，主要通过利用配对的放射照片和放射学报告。为了解决医学知识编码的挑战，我们提出了一种新颖的基于 Transformer 的方法 DeViDe，它利用来自开放网络的放射照片描述。DeViDe 将具体定义和放射学报告与开放网络中疾病的通用视觉特征相结合，提供了对知识的整体快照。在零样本设置下，DeViDe 在外部数据集上表现出与全监督模型相当的性能，并在三个大规模数据集上达到了最先进的结果。另外，将 DeViDe 在四个下游任务和六个分割任务上微调，展示了其在不同分布的数据上优越的性能。

Apr, 2024

深度学习表示的自监督视觉语言对骨X射线分析的对齐

该研究提出了利用骨骼X射线与法语报告的视觉语言预训练来解决骨X射线影像学的下游任务。提出了一个实用的处理流程来对法国医学报告进行匿名化和处理。预训练包括来自深度模型编码器的视觉和文本嵌入空间的自我监督对齐。结果的图像编码器用于处理各种下游任务，包括骨关节炎的量化、儿童手腕骨龄的估计、骨折和异常检测。与需要大量人工专家注释的替代方法相比，我们的方法在下游任务上表现出竞争性能。我们的工作是第一项将法国报告整合到用于骨X射线表示的嵌入空间的研究，利用了医院中大量的成对图像和报告数据，以在特定语境中依赖通用视觉语言深度模型，为更广泛的医疗应用部署视觉模型作出贡献。

May, 2024

CXR-Agent: 胸部X光解读的视觉语言模型及具备不确定性认知的放射学报告

通过对Chest X-ray照片的解释和生成自然语言描述，结合高级推理，评估可用于医学报告生成的视觉-语言模型的性能，发现这些模型往往会产生具有自信的语言，从而导致临床解释的减慢。因此，我们开发了一种基于Agent的视觉-语言方法，使用线性探测和短语锚定工具生成基于不确定性的放射学报告，准确定位和描述病理学。通过开发评估平台进行用户研究，结合自然语言处理指标、Chest X-ray基准和呼吸专家的临床评估，我们的结果显示出在AI生成报告的准确性、解释性和安全性方面的相当大的改进。同时，强调需要更大规模的配对(照片和报告)数据集以及数据扩增来解决这些大型视觉-语言模型中的过拟合问题。

Jul, 2024