语言导向的医学图像分割的跨模态条件重构
本研究探讨了自然语言描述下图像分割的问题,提出了基于卷积多模态 LSTM 编码单词、视觉和空间信息的序列交互的方法,并在基准数据集上展示出了其比基准模型更好的性能。
Mar, 2017
提出了一种名为蒙版对比与重建(MCR)的高效 VLP 框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。
Dec, 2023
利用多模态视觉语言模型从图像描述和图像中捕捉语义信息,实现对多样化医学图像的分割,并评估其在医学领域的迁移性和基于生成提示的模型性能变化。
Aug, 2023
本研究提出了一种基于 Synchronous Multi-Modal Fusion Module 和 Hierarchical Cross-Modal Aggregation Module 的引用图像分割模型,并通过四个基准数据集的实验验证了其性能优于现有最先进的方法。
Apr, 2021
我们提出了一个语义增强的视觉 - 语言预训练模型,通过引入局部语义增强方法和文字引导的遮蔽策略,实现了跨模态语义对齐,在多个下游视觉 - 语言任务中取得了最先进或有竞争力的性能。
Mar, 2024
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
本文介绍了一种基于语义模型的对比学习方法,该方法在生物医学领域的文本 - 语言建模中取得了目前最先进的结果,利用该方法可以更好地理解医学图像和报告。
Apr, 2022
本篇论文提出了一种基于 Transformer 的多模态相互注意力机制和相互解码器,与之相结合的迭代式多模态交互机制及语言特征重建技术,在指代图像分割的任务中取得了很好的效果。
May, 2023
本文提出了一个基于深度神经网络的编码器 - 解码器结构,包含跨模态卷积层以整合不同模态的 MRI 数据和卷积 LSTM 以建模 2D 切片序列,通过加权和两阶段训练来处理标签失衡,并在 BRATS-2015 数据集上实验表明超越了现有的生物医学分割方法。
Apr, 2017
该研究提出了一种新的医学图像分析解决方案:基于多任务配对掩模对齐(MPMA)的统一 Med-VLP 框架,其中设计了全局和局部对齐(GLA)模块和记忆增强型跨模态融合(MA-CMF)模块,以实现更全面的跨模态交互,并在全部下游任务中优于以前的方法。
May, 2023