- 利用开放词汇的实例分割实现无监督全景重建
从场景的 RGB-D 图像中,我们提出了一种零样本全景重建方法,该方法利用开放词汇实例分割并利用密集广义特征传播部分标签和构建 3D 实例图进行关联来解决场景的全景分割和实例关联挑战。
- 基于分割基础模型的医疗图像分类提升
本文介绍了一种基于 Segment Anything Model(SAM)的创新增强方法 SAMAug-C,用于生成原始图像的变体并增强分类数据集,实验结果验证了该方法的有效性。
- CVPRRobustSAM: 在退化图像上鲁棒地分割任何物体
RobustSAM 是一种改进的 Segment Anything Model (SAM) 方法,通过增强 SAM 在低质量图像上的性能,同时保持其可提示性和零样本泛化能力。其在各种分割任务和数据集上的广泛实验证实了其卓越性能,特别是在零样 - SimSAM: 通过模拟交互的零样本医学图像分割
采用模拟用户交互生成候选掩码并使用新的聚合方法输出最兼容的掩码,Simulated Interaction for Segment Anything Model (SimSAM) 在医学图像中展示出较零射击方法有着更高的分割准确性。
- SAM3D:零射击半自动三维医学图像分割
SAM3D 是一种新的半自动零射击 3D 图像分割方法,通过现有的任意分割模型,利用四步策略实现在 3D 图像中快速且准确的分割,可以帮助手术规划和教育、诊断成像以及科学研究。
- 非可见光谱影像应用的片段任意模型性能评估与变分提示
Segment Anything Model (SAM) 通过使用不同的输入提示(如文本、边界框、点或掩膜)生成掩膜,克服了特定数据集稀缺性的约束,评估了 SAM 在 X 射线 / 红外模态中分割感兴趣对象的能力,结果表明 SAM 在给定盒 - kNN-CLIP: 基于检索的训练免费的连续扩展大词汇的分割
我们引入了一种新颖的连续语义和全景分割策略,名为 kNN-CLIP,它能够在计算和内存成本最小化的情况下,实现对不断扩大的词汇的适应,并在大词汇语义和全景分割数据集上取得了最先进的性能表现,为实现更高效、可适应性强的连续分割方法迈出了一步。
- 高家:通过三维感知记忆库对群聚高斯进行编码
Gaga 是一个利用不一致的零样本分割模型预测的 2D 掩码来重建和分割开放环境下的 3D 场景的框架。通过利用空间信息,有效地关联不同摄像机姿势下的物体掩码,Gaga 消除了训练图像中关于视角连续变化的假设,展现出对摄像机姿势变化的鲁棒性 - MedCLIP-SAM:将文本和图像融合以实现通用医学图像分割
提出了一种新颖的框架 ——MedCLIP-SAM,结合了 CLIP 和 SAM 模型,使用文本提示在零样本和弱监督设置中生成临床扫描的分割,通过广泛测试三个不同的分割任务和医学图像模态,证明了该框架具有出色的准确性。
- 基于多粒度跨模态对齐的开放词汇语义分割学习
提出了一种多粒度跨模态对齐 (MGCA) 框架,通过在像素级、对象级和区域级学习对齐来解决现有方法在像素级预测和训练时的粒度差异问题,并采用硬采样策略促进精细的跨模态对比学习,进一步开发自适应语义单元来改善像素预测单元在下游分割中的缺陷。在 - 从一般化到精确性:在外科环境中探索 SAM 用于工具分割
准确的工具分割对于计算机辅助程序至关重要。在医学场景中,由于存在伪影和有限的训练数据,这项任务存在挑战。在未见数据上具有普遍性的方法代表了一个有趣的途径,其中零样本分割提供了解决数据限制问题的选项。使用 Segment Anything M - 使用 GPT-4 生成的描述性提示,在多模态医学图像上提高 SAM 零样本性能
该研究开发和评估了一种新的多模态医学图像零样本分割算法,名为文本 - 视觉提示 SAM(TV-SAM),无需任何手动注释。该算法利用大型语言模型 GPT-4、视觉语言模型 GLIP 和段落与图像模型 SAM,从医学图像中自动生成描述性文本提 - CoSSegGaussians:紧凑且快速的场景分割 3D 高斯模型
我们提出了一种紧凑高效的三维高斯分割方法(Compact and Swift Segmenting 3D Gaussians,CoSSegGaussians),通过仅使用 RGB 图像输入,在快速渲染速度下进行三维一致场景分割。
- AAAI频谱提示调整:为零 - shot 语义分割揭示未见类别
通过引入 SPT-SEG 方法,我们改善了 CLIP 的自适应能力,使其能够从图像到像素的转换,并采用高频和低频信息来引导网络的空间焦点,从而实现精确的像素级预测结果。在两个公共数据集上进行了大量实验证明我们方法的优越性,在处理未见类别方面 - EMNLP基于嘈杂词边界的 XLS-R 微调,实现无监督语音分词
利用半监督学习的灵感,我们使用最新的自我监督语音模型通过微调迅速适应新任务,实现在没有文本监督的情况下,将语音句子分割为单词单位的挑战,我们通过微调 XLS-R 模型来预测由顶级语音分割系统(DPDP、VG-HuBERT、GradSeg 和 - 学习面具感知 CLIP 表示以进行零样本分割
提出了一种名为 Mask-aware Fine-tuning (MAFT) 的简单而有效方法,通过使用 Image-Proposals CLIP Encoder (IP-CLIP Encoder) 和相应的损失函数来改善预训练模型 CLIP - 掩蔽动量对比学习用于零样本语义理解
通过自监督预训练技术(SSP),本研究旨在评估彻底自监督学习技术在计算机视觉任务中的有效性,无需微调,旨在模仿人类的泛化和识别未见目标的能力,并提出了一种基于标注块的零样本分割评估协议,以及评估 SSP ViTs 的内部和外部物体相似性来衡 - All-in-SAM:从弱注释到基于提示微调的像素级细胞核分割
本文提出了一个称为 all-in-SAM 的流程,通过将 SAM 用于整个 AI 开发工作流(从注释生成到模型微调),而无需在推理阶段使用手动提示,取代了在推理阶段使用提示的方法,可以在不需要手动提示的情况下更好地完成生物医学图像分割任务, - 医学成像通用视觉基础模型:零样本医学分割中的 “分割任意物体模型” 案例研究
本研究使用 Segment Anything Model 在医疗图像上进行了定量和定性的零 - shot 分割实验,并发现虽然其在一般领域的图像中表现出色,但在医疗图像中存在一定的局限性,特别是在结构性目标上,而针对这些问题的数量有限的微调 - CVPR仅基于图像 - 文本对学习生成文本导向掩膜,用于开放世界语义分割
本文提出了一种名为 Text-grounded Contrastive Learning 的框架,用于解决利用图像 - 文本对进行开放式语义分割任务存在的图像 - 文本不一致问题,并在八个经典的语义分割数据集上达到了最先进的零样本分割表现。