利用现成的扩散模型进行医学术语定位
LoVT是一种面向医学图像的局部表征学习方法,结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习,针对局部任务优化图像预先训练,相比其他常用预训练方法,在18个局部任务的评估框架中表现最佳,因此被认为是优选方法。
Dec, 2021
本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中,通过研究Stable Diffusion模型的子组件,进而生成医学影像,并通过定量和定性的方法对模型效果进行评估。
Oct, 2022
本研究提出了一种策略来克服大规模自然 - 医学分布偏移,并使用预先训练的潜在扩散模型在公开可用的胸部X射线(CXR)及其对应的放射学(文本)报告语料库上进行调整,评估了生成的高保真CXR的图像质量和文本 - 图像对齐的能力,并观察到使用数据增强的方式训练动态成像分类器的证据。
Nov, 2022
使用频域滤波器来指导扩散模型,以实现结构保留图像翻译的频率引导扩散模型(FGDM),同时在医学图像翻译中具有零样本学习的能力。 该模型在结构保留医学图像翻译任务中具有良好的性能。
Apr, 2023
提出了MI-Zero框架,它将对比可视语言预训练模型的零射频转换重构为多实例学习,以在吉盘组织学全幻灯片图像上释放其零射频转换能力,从而在预先训练的编码器不需要任何额外的标签的情况下进行多个下游诊断任务。
Jun, 2023
本研究介绍了 XrayGPT,一种新型的会话式医疗视觉-语言模型,可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐,并使用简单的线性变换,我们的模型能够具备出色的视觉会话能力,从而深入理解放射学和医学领域的知识。
Jun, 2023
通过结合潜在扩散模型和领域专用的大型语言模型,提出一种新颖的生成式视觉归因技术来生成异常图像的正常对应物,从而揭示医学图像中诊断相关的部分。通过在医学科学和应用放射学中获取的自然语言文本提示,使用图像先验和适当的条件机制来控制图像生成过程,利用COVID-19放射学数据库对结果进行实验和定量评估。
Jan, 2024
利用图像和诊断报告的多模态深度学习在医学影像诊断领域取得了显著进展,尤其在缺乏足够注释信息的辅助诊断方面具有强大的能力,然而,没有详细位置注释的准确定位疾病仍然是一个挑战,现有的方法已尝试利用局部信息实现细粒度语义对齐,但其在提取综合上下文内的细粒度语义能力有限,为解决这一问题,我们提出了一种新的方法,将文本报告中的完整句子作为局部语义对齐的基本单元,我们的方法结合了胸部X射线图像和相应的文本报告,在全局和局部层面进行对比学习,我们的方法在多个数据集上取得的领先结果证实了其在病灶定位任务中的有效性。
Jan, 2024
通过使用预训练模型在大规模图像-文本对上,集中于图像-文本对齐,推动了医学领域零样本学习的进展。然而,现有方法主要依赖于余弦相似度进行对齐,可能无法完全捕捉医学图像和报告之间复杂的关系。为了填补这一空白,我们引入了一种新的方法,称为交叉注意力对齐用于放射学零样本分类(CARZero)。我们的方法创新地利用交叉注意力机制处理图像和报告特征,创建一个更准确地反映医学语义中复杂关系的相似性表示。然后,将这个表示线性投影形成图像-文本相似性矩阵以进行跨模态对齐。此外,CARZero还将零样本学习中提示选择的关键作用纳入其中,采用基于大型语言模型的提示对齐策略。该策略将多样化的诊断表达规范化为统一格式,用于训练和推理阶段,克服了手动提示设计的挑战。我们的方法简单而有效,在包括长尾疾病分布数据集在内的五个官方胸部透视诊断测试集上展示了最先进的零样本分类性能,取得了显著的结果。这一成就归因于我们新的图像-文本对齐策略,有效地解决了医学图像和报告之间复杂的关系。
Feb, 2024
通过扩展扩散模型的架构,本研究提出了一种使用提问学习的方法,实现了基于句子构建的图像理解,进而在零样例的情况下实现了上下文感知的短语级理解,证明了扩散模型在语境感知的短语级理解方面的能力。
Jul, 2024