领域通用城市场景分割的学习增强掩模变换器
提供一种新的架构 Mask2Former,该架构通过应用掩蔽注意力机制提取局部特征来解决多种类型的图像分割任务,包括全景分割、实体分割和语义分割,并且优于当前最佳的专门任务架构。
Dec, 2021
本研究使用视觉 Transformer 的自注意视觉分组属性,提出了一种新型分层分组变压器(HGFormer),在不同尺度上找到部聚合模块并组合像素以形成对象级别的语义分割结果,比以像素分组的方法和以平坦分组变压器的方法具有显著更强的网络鲁棒性。
May, 2023
基于查询的多任务学习框架在伪装实例分割中表现出色,通过构建一组掩蔽查询和一组边界查询,有效地整合全局掩蔽对象区域和边界提示,实现了伪装场景中的实例分割和边界检测。
Aug, 2023
本论文介绍一种基于课程式学习(curriculum-style learning)的方法,通过学习全局标签分布和局部分布来缓解城市风景语义分割中真实图像和合成数据之间的领域差异,并在两个数据集和两个骨干网络上的实验中表现优异。
Jul, 2017
在城市场景语义分割中,我们提出一种课程学习的方法来尽可能减小真实和合成数据之间的差距。该方法采用先易后难的策略,对全局标签分布和本地超像素标签分布进行先验知识的推断,并在此基础上训练语义分割网络。在两个数据集和两种 Backbone 网络上,我们的方法表现优于基线,并且进行了广泛的实验研究。
Dec, 2018
我们提出了一种新的变换器解码器 U-MixFormer,基于 U-Net 结构设计的,用于高效的语义分割。通过在编码器和解码器阶段之间利用侧连接作为特征查询,我们的方法与以前的变换器方法有所不同。此外,我们创新地混合来自各个编码器和解码器阶段的分层特征图,形成一个统一的键和值表示,从而产生我们独特的混合注意模块。大量实验证明,U-MixFormer 在各种配置上表现出色,并且在 ADE20K 上使用 MSCAN-T 编码器的 mIoU 比 SegFormer 和 FeedFormer 高出 3.3%。
Dec, 2023
本文提出了一个统一的框架,它由两个体系结构组成,称为 UNetFormer,具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练,使用 Medical Segmentation Decathlon(MSD)数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试,并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割,并在 Dice 评分方面优于其他方法。
Apr, 2022
通过使用双增强变换网络和自正则化约束,为弱监督语义分割(WSSS)问题提供一种有效的解决方法,该方法通过将 CNN 和 Transformer 网络相结合进行相互补充学习,并在最终输出上进行增强来改善分割效果。在具有挑战性的 PASCAL VOC 2012 基准测试上进行的大量系统评估结果表明,该方法的有效性优于先前的最先进方法。
Sep, 2023
本文介绍了一种名为 DFormer 的方法,用于实现全局图像分割,该方法将全局图像分割任务视为使用扩散模型的降噪过程,在地面真实掩模上添加各个层次的高斯噪声,然后学习模型从损坏掩模中预测降噪掩模,最后使用基于扩散的解码器逐渐执行掩模预测,并直接从一组随机生成的蒙版中预测掩模和相应类别。
Jun, 2023