面向广义医学视觉表示学习的多粒度跨模态对齐
提出了一种多粒度跨模态对齐 (MGCA) 框架,通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题,并采用硬采样策略促进精细的跨模态对比学习,进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 CC3M 数据集上进行训练后,该方法在性能上显著超过了现有的方法,验证了其有效性和高效性。
Mar, 2024
提出了一种基于记忆的跨模态语义对齐模型(MCSAM),它包括一个良好初始化的长期临床记忆库来学习与疾病相关的表示,以及检索和使用检索到的记忆进行特征整合的先验知识,同时通过交叉模态语义对齐模块(SAM)生成语义视觉特征嵌入,有助于报告生成;通过使用可学习的记忆提示记住解码器在报告生成过程中的状态和附加信息,实验证明该方法在 MIMIC-CXR 数据集上具有有前景的性能表现。
Mar, 2024
本研究介绍了 MaCo,一种新颖的多模态医学基础模型,通过探索遮蔽对比学习实现医学影像任务的细粒度对齐和零样本学习,并结合相关权重机制来增强表示学习能力。我们在六个知名的开源 X 射线数据集上评估 MaCo,实验结果表明其在分类、分割和零样本阶段定位方面优于七种最先进的方法,展示了其在促进各种医学图像分析任务方面的巨大潜力。
Sep, 2023
使用眼动数据来辅助图像和文本特征的对齐,以减少对手动注释的依赖和降低培训成本。同时,探讨了不同量的眼动数据对模型性能的影响,突显将此辅助数据整合到多模态预训练中的可行性和实用性。
Mar, 2024
该研究提出了一种新的医学图像分析解决方案:基于多任务配对掩模对齐(MPMA)的统一 Med-VLP 框架,其中设计了全局和局部对齐(GLA)模块和记忆增强型跨模态融合(MA-CMF)模块,以实现更全面的跨模态交互,并在全部下游任务中优于以前的方法。
May, 2023
该研究提出了一个包含 Align Hierarchical Attention (AHA) 和 Multi-Grained Transformer (MGT) modules 在内的 AlignTransformer 框架,可以用于医疗图像的自动报告生成,实验表明该方法可以解决数据偏差问题,并取得了与现有最佳方法相竞争的结果。
Mar, 2022
本文提出了一种利用稀疏注意力块和双线性池化捕捉细粒度图像特征之间高阶交互的记忆增强型稀疏注意力块,并引入新颖的医学概念生成网络来预测细粒度语义概念,并将其作为指导结合到自动生成医学报告的过程中,最终在 MIMIC-CXR 及图像字幕生成和医学报告生成多个领域的基准测试中,表现出了优异的性能。
Aug, 2022
利用图像和诊断报告的多模态深度学习在医学影像诊断领域取得了显著进展,尤其在缺乏足够注释信息的辅助诊断方面具有强大的能力,然而,没有详细位置注释的准确定位疾病仍然是一个挑战,现有的方法已尝试利用局部信息实现细粒度语义对齐,但其在提取综合上下文内的细粒度语义能力有限,为解决这一问题,我们提出了一种新的方法,将文本报告中的完整句子作为局部语义对齐的基本单元,我们的方法结合了胸部 X 射线图像和相应的文本报告,在全局和局部层面进行对比学习,我们的方法在多个数据集上取得的领先结果证实了其在病灶定位任务中的有效性。
Jan, 2024
本文介绍了一种用于肿瘤分割的新型深度学习方法,该方法使用了基于图像转换和 Segementation 的迭代自训练算法以及一种名为 GBA(Generative Blending Augmentation)的数据增强技术,使用 SinGAN 生成模型来使目标肿瘤出现得更加真实,从而提高了分割模型的泛化能力,并在 MICCAI CrossMoDA 2022 演示中的肿瘤分割任务中名列前茅。
Apr, 2023
本文提出了一种跨模式记忆网络 (CMN) 来增强医学影像学中放射学报告自动生成的编码器 - 解码器框架,实验结果表明该模型能够更好地对齐放射图像和文本信息,具有更高的临床指标准确性。
Apr, 2022