基于金字塔结构的高效统一 Transformer 语义分割模型
最近基于 Transformer 的架构在图像分割领域取得了令人印象深刻的成果。为了填补传统架构在计算资源上的限制,本文提出了一种高效的基于原型的 Transformer 架构 (PEM),它利用视觉特征的冗余性来限制计算并提高效率,同时引入了高效的多尺度特征金字塔网络,能够高效地提取具有高语义内容的特征。在两个不同的数据集上对 PEM 架构进行了测试和评估,表现出色,优于特定任务的架构,并且与计算代价较高的基准模型相媲美甚至更优。
Feb, 2024
本文提出了一种联合多任务学习框架,利用迭代金字塔上下文模块(PCM)耦合两个任务来实现语义分割和边界检测,并引入了新的空间梯度融合技术来处理非语义边缘。通过实验证明,该框架不仅在语义分割方面表现出比其他同类方法更优异的性能,还可以有效改善语义分割过程中的边界像素精度。
Apr, 2020
本研究提出了一种基于 Transformer 的 Feature Pyramid Fusion Transformer (PFT) 方法,结合学习到的查询和 Feature Pyramid 中的每个空间特征进行交叉注意力和交叉尺度的互补信息交换,提高了面向掩码的语义分割性能,并在三个广泛使用的语义分割数据集上达到了与现有最佳方法相比的最先进的性能。
Jan, 2022
提出了 UniSeg3D,这是一个统一的三维分割框架,可以在一个模型内完成全景、语义、实例、交互、指向性和开放词汇的语义分割任务。该方法将六个任务统一为由相同 Transformer 处理的统一表示,促进了任务间的知识共享,从而提升了对三维场景的综合理解。通过利用任务连接,通过设计知识蒸馏和对比学习方法,在多任务统一化的基础上提高了性能。在三个基准测试中的实验证明了 UniSeg3D 的优越性,即使是那些专门针对特定任务的方法也无法与之相比。希望 UniSeg3D 能够作为一个坚实的统一基准,并激发未来的研究。
Jul, 2024
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。
Nov, 2023
提取历史地图的信息是一项具有挑战性的任务,尤其是在考虑到数据依赖性不确定性的情况下,我们提出了一种融合时空特征和交叉注意力变换器的 U-Net 网络(U-SpaTem),该模型在分割任务上表现出比其他方法更好的性能。
Oct, 2023
研究使用 transformers 和 Squeeze-and-Expansion Transformer 实现医学影像分割,较传统方法显著提高了分割准确度和跨领域泛化性。
May, 2021
本文提出了一种新的语义分割方法,使用纯 Transformer 编码图像为序列的方式,通过全局上下文模型和一个简单的解码器生成强大的分割模型,称为 SETR,取得多项最新的测试结果。
Dec, 2020
本文提出了 Segmenter,一种用于语义分割的 Transformer 模型,利用一种点刀线性解码器或一个 mask transformer 解码器将图像分割为不同的类别,通过对模型参数的分析,表明 Segmenter 在 ADE20K 和 Pascal Context 数据集上具有良好的性能。
May, 2021
通过使用超像素与现代 Transformer 框架相结合,本研究提出一种能在语义分割领域获得最先进性能的方法,通过学习将像素空间分解为低维超像素空间,并运用多头自注意力机制来丰富超像素特征以获得全局上下文信息,最终实现了更高的计算效率和模型性能。
Sep, 2023