揭示医学多模态预训练中空间和时间信息的力量
借助统一的语义空间,UniMedI 提出了一种统一医学图像预训练框架,能够有效地为不同模态的医学图像创建统一的表示,并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。
Nov, 2023
通过自监督学习提出了一种新的多模态时空学习框架,称为 MoSSl,旨在从时间、空间和模态角度揭示潜在模式,并量化动态异质性。实验结果验证了我们方法相对于现有基线的优越性。
May, 2024
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
本文提出一种名为 BioViL-T 的方法,使用了了同时训练和微调过程中的先前图像和报告,通过 CNN-Transformer 混合多图像编码器与文本模型协同训练,获得了最先进的性能,在单图像和多图像设置下实现了进展分类,短语接地和报告生成,并在疾病分类和句子相似性任务上持续提供改进,并使用一个新的多模态时间基准数据集 MS-CXR-T 表征了视觉语言表示的优劣。
Jan, 2023
提出了一种统一的医学多模态诊断 (UMD) 框架,包括量身定制的预训练和下游调优策略,以解决医学多模态预训练面临的数据和模态异质性挑战,在五个公共医学数据集上的广泛实验表明我们的 UMD 框架在三种下游任务上显著优于现有方法。
Apr, 2024
该研究提出了一种新的医学图像分析解决方案:基于多任务配对掩模对齐(MPMA)的统一 Med-VLP 框架,其中设计了全局和局部对齐(GLA)模块和记忆增强型跨模态融合(MA-CMF)模块,以实现更全面的跨模态交互,并在全部下游任务中优于以前的方法。
May, 2023
本文介绍了一种新颖的预训练空间时间多对一模型 (P-STMO),用于 2D 到 3D 人体姿势估计任务。在第一阶段中,提出了一种自监督预训练子任务,称为遮盖姿态建模,以减少捕捉空间和时间信息的难度。在第二阶段中,加载预先训练的编码器到 STMO 模型进行微调。我们的方法在两个基准测试中表现出优于现有技术的性能。
Mar, 2022
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
Sep, 2022
本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中,通过研究 Stable Diffusion 模型的子组件,进而生成医学影像,并通过定量和定性的方法对模型效果进行评估。
Oct, 2022
通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions),本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析,得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。
Jun, 2023