ELVIS: 通过 Intra-modal 相似度增强视觉语言预训练中的局部性能力

Apr, 2023

ELVIS: 通过 Intra-modal 相似度增强视觉语言预训练中的局部性能力

ELVIS: Empowering Locality of Vision Language Pre-training with Intra-modal Similarity

Sumin Seo, JaeWoong Shin, Jaewoo Kang, Tae Soo Kim, Thijs Kooi

TL;DRELVIS 是一种局部感知的 Visual Language Pre-training 方法，旨在增强自然语言处理对放射学文本和 X 光报告中位置指示的理解能力，通过在无需昂贵注释的情况下，利用大量的匹配图像和文本对来增强局部性，可以更好地定位异常，提高细粒度诊断的准确性。

Abstract

deep learning has shown great potential in assisting radiologists in reading chest X-ray (CXR) images, but its need for expensive annotations for improving performance prevents widespread clinical application. Visual language pre-training (VLP) can alleviate the burden and cost of anno

deep learning visual language pre-training localization-aware vlps empowering locality of vlp with intra-modal similarity radiographs

发现论文，激发创造

MedKLIP: 医学知识增强的语言 - 图像预训练

该研究论文提出了基于医学图像文本匹配的预训练方法，利用三元组信息和医学专有知识进行医疗分类和定位，取得了比其他方法更好的分类结果。

Jan, 2023

医学影像和报告的局部表示联合学习

LoVT 是一种面向医学图像的局部表征学习方法，结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习，针对局部任务优化图像预先训练，相比其他常用预训练方法，在 18 个局部任务的评估框架中表现最佳，因此被认为是优选方法。

Dec, 2021

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024

IMITATE: 临床先验引导的分层视觉 - 语言预训练

为了利用医学报告的层次结构，从医学图像中提取多层次的视觉特征，并通过新的临床信息对比损失实现异构模态学习，我们提出了一种名为 IMITATE 的新型临床先验指导的视觉语言预训练框架，该框架在五项医学成像下游任务中优于基准方法，突出了整合医学报告的层次结构进行视觉语言对齐的优势。

Oct, 2023

利用合成数据进行医学视觉 - 语言预训练：绕开真实图像的需求

利用合成图像从真实医学报告中生成的医学影像，可以有效地实现医学视觉与语言预训练 (VLP)，并且在图像分类、语义分割和目标检测等任务上，利用合成数据的性能与真实数据相当甚至超过。

Oct, 2023

在视觉 - 语言模型中实现交互式区域理解

通过引入具有明确区域建模能力的 RegionVLM 模型，并利用包含区域信息的 Localized Narratives 数据集，我们的实验表明，我们的单一通用模型不仅实现了交互式对话系统，还在各种零样本区域理解任务上展现出了卓越的性能，而不会损害其对全局图像的理解能力。

Mar, 2024

CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像 - 标签对为图像 - 文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL 和 TCL，来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外，扩大数据集能够提高我们预训练模型的分类性能，尽管在检索性能方面有所牺牲。代码可在此网址获得。

Oct, 2023

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023