医学图像分割的多尺度渐进式文本提示网络
准确分割病变区域对于各种疾病的临床诊断和治疗至关重要。本研究提出了一种新颖的医学视觉提示 (MVP) 框架,借鉴了自然语言处理 (NLP) 的预训练和提示概念,通过整合 SPGP、IEGP 和 AAGP 三个关键组件,使得分割网络更好地学习形状提示信息并实现不同任务之间的相互学习,实验结果表明此方法在各种具有挑战性的医学图像任务中表现优越。
Apr, 2024
该研究介绍了一个新的提高医学图像识别性能的方法,利用预训练视觉 - 语言模型和伪提示生成来实现多标签分类和自动诊断,对比实验证明了其在多标签胸部放射图数据集上的卓越性能。
May, 2024
本研究介绍了一种名为 PE-MED 的新型框架,用于交互式医学图像分割,并通过比较实验证明了其优于其他最先进的医学图像分割算法的分割准确性和稳定性。
Aug, 2023
跨模态医学图像翻译是合成临床诊断中缺失模态数据的必要任务。本研究提出了 MedPrompt,一种多任务框架,可以高效地翻译不同模态。通过引入自适应提示块、提示提取块和提示融合块,我们能够有效地编码跨模态提示。通过集成 Transformer 模型,增强了对不同模态间全局特征的提取,实验结果表明我们提出的模型在视觉质量和泛化能力方面达到了最先进水平。
Oct, 2023
本文提出了一种基于文本或图像提示产生图像分割结果的模型,使用 CLIP 模型并引入 Transformer-based decoder 实现了对于任意提示的图像分割。经过对短语切割数据集进行扩展训练,该模型可以生成二进制的分割结果。我们发现该模型不仅可适应于三种标准的分割任务,而且可以适应于任何文本或图像提示的二进制分割任务。
Dec, 2021
通过使用学习到的视觉提示,我们的工作研究了在少样本情况下,通过对 Transformer 解码器进行提示,来提高普适少样本分割(GFSS)任务的效果。我们提出了一种利用少量样本学习视觉提示的方法,通过这些学习到的视觉提示,我们可以对多尺度 Transformer 解码器进行提示,以便实现准确的密集预测。此外,我们引入了一种单向因果关注机制,用于连接通过少样本学习到的新提示和通过大量数据学习到的基础提示,从而提升新提示的质量而不损害基础类别的性能。总体而言,这种提示形式帮助我们在两个不同的基准数据集上实现了 GFSS 的最先进性能:COCO-$20^i$ 和 Pascal-$5^i$,而无需进行测试时间的优化或传导。此外,我们还使用未标记的测试数据进行测试时间的优化,以改进这些视觉提示,我们称之为传导提示调优(transductive prompt tuning)。
Apr, 2024
本文提出了一种基于 prompts 的微调策略,将预训练的 transformer-based 分割模型适应于新的医疗中心数据,以实现医疗图像分割,不仅提升了在新医疗中心数据上的表现,同时也显著降低了细调预训练模型的计算和时间成本。
May, 2023
本文提出了一种利用图像级标签来促进分割的双 U 形两阶段框架,通过预训练分类网络获取层次金字塔特征并引导下游分支的学习,在像素级标签的监督学习下,通过短跳和长跳将从分类分支获得的层次特征输入到下游分支中,并得到病变掩模,实验证明我们的框架相比只使用像素级标注的网络取得了更好的结果。
Jun, 2024
在人工智能领域,深度多模态语义理解已经引起了越来越多的关注,挑战主要集中在收集和标注高质量的多模态数据,突显了几次学习的重要性。本文针对这一背景下的两个关键任务:少样本多模态讽刺检测(MSD)和多模态情感分析(MSA),提出了一种基于统一视觉语言模型(VLM)的创新多模态软提示框架:MoPE-BAF(Mixture-of-Prompt-Experts with Block-Aware Prompt Fusion)。我们设计了三个软提示专家:文本提示和图像提示,以提取模态特定特征,丰富单模态表示;同时,提出了多模态交互的统一提示。此外,我们将 Transformer 层重组为多个块,并在相邻块之间引入跨模态提示注意力,以平稳实现从单模态表示到多模态融合的过渡。在少样本设置下的 MSD 和 MSA 数据集上,我们提出的模型不仅仅在参数(150M)上超越了 8.2B 模型 InstructBLIP,而且在 VLMs 或任务特定方法中也大大优于其他广泛使用的提示方法。
Mar, 2024