PPTFormer: 无人机分割的伪多角度变换器

IJCAIJun, 2024

PPTFormer: 无人机分割的伪多角度变换器

PPTFormer: Pseudo Multi-Perspective Transformer for UAV Segmentation

Deyi Ji, Wenwei Jin, Hongtao Lu, Feng Zhao

TL;DR通过引入 PPTFormer 网络，我们提出了一种新的伪多视角转换网络，通过创建伪视角来增强多视角学习，并通过 Pseudo Multi-Perspective Attention（PMP Attention）和融合，实现了卓越的无人机图像分割结果。该方法在五个无人机分割数据集上达到了最先进的性能，验证了其能够有效模拟无人机飞行视角并显著提高分割精度，从而在无人机场景理解方面取得了具有开创性的突破，并为语义分割的未来发展树立了新的基准。

Abstract

The ascension of unmanned aerial vehicles (UAVs) in various fields necessitates effective uav image segmentation, which faces challenges due to the dynamic perspectives of UAV-captured images. Traditional segment

unmanned aerial vehicles uav image segmentation pptformer multi-perspective learning semantic segmentation

发现论文，激发创造

AerialFormer：针对航拍图像分割的多分辨率 Transformer

本文提出了 AerialFormer 方法，该方法融合 Transformers 和轻量级 MD-CNNs，并应用于航空影像分割领域。在 iSAID、LoveDA 和 Potsdam 三个数据集上进行了广泛的实验研究，结果表明该方法比之前的最先进方法表现更卓越。

Jun, 2023

DUFormer：航拍图像中电力线路分割的一种新型架构

该论文提出了一种用于航空图像中的电力线检测的语义分割算法 DUFormer，该算法采用具有强归纳偏差的卷积神经网络，以及一个重量级令牌编码器，负责重叠特征再挖掘和标记化，结果显示该算法在公开可用的 TTPLA 数据集上的电力线分割任务中达到了最先进水平的表现。

Apr, 2023

OneFormer3D：统一点云分割的一种 Transformer

本文提出了一种统一、简单、有效的模型 OneFormer3D，利用可学习的卷积核同时处理实例分割和语义分割，通过输入统一的实例和语义查询来训练，并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能，同时在 ScanNet、ScanNet200 和 S3DIS 数据集上展示了最领先的语义、实例和全景分割结果。

Nov, 2023

TAFormer：面向航拍场景中视频和运动联合预测的统一目标感知 Transformer

无人机技术的不断进步使得使用无人机进行高空遥感成为现代低空遥感的主导趋势。随着航拍视频数据的激增，对于感兴趣目标未来场景和运动状态的准确预测尤为重要，尤其在交通管理和灾难响应等应用领域。现有的视频预测方法仅关注预测未来场景，忽视了目标运动状态的显式建模，这对于航拍视频解释来说至关重要。针对该问题，我们引入了一项新颖的任务，命名为目标感知航拍视频预测，旨在同时预测未来场景和目标的运动状态。此外，我们设计了一个专门针对该任务的模型，名为 TAFormer，它提供了一个统一的建模方法，可以同时建模视频和目标的运动状态。具体而言，我们引入了时空关注机制（STA），将视频动态学习分解为空间静态关注和时间动态关注，有效建模场景外观和运动。另外，我们设计了一种信息共享机制（ISM），通过两组信使令牌促进信息交互，优雅地统一了对视频和目标运动的建模。另外，为了减轻模糊预测中目标识别的困难，我们引入了目标敏感高斯损失（TSGL），增强了模型对目标位置和内容的敏感性。在 UAV123VP 和 VisDroneVP 等数据集上进行了大量实验证明了 TAFormer 在目标感知视频预测方面的卓越性能，展示了其适应航拍视频解释的额外要求。

Mar, 2024

基于合成数据的实例分割的并行预训练 Transformer (PPT)

本文提出了一种并行预训练 Transformer（PPT）框架，利用模拟渲染和物理学生成高质量的图像注释对，实现基于合成数据的实例细分任务。该方法采用现成的预训练视觉 Transformer 来缓解自然与合成数据之间的差距，从而在少量样本的下游合成数据场景中提供良好的泛化效果。试验结果表明，PPT 在 CVPR2022 AVA Accessibility Vision and Autonomy Challenge 中排名第一，mAP 为 65.155％。

Jun, 2022

MP-Former：基于遮罩引导的 Transformer 图像分割算法

本文介绍了一种基于掩模驱动 Transformer 的方法，通过使用噪声原始掩模进行训练和获取更一致的优化目标来提高 Mask2Former 的掩模注意力在图像分割中的表现，实验结果表明，该方法可显著提升实例分割、全景分割和语义分割的精度，并且训练速度更快，不会在推断阶段引入额外的计算。

Mar, 2023

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

UNetFormer: 用于三维医学图像分割的统一视觉 Transformer 模型和预训练框架

本文提出了一个统一的框架，它由两个体系结构组成，称为 UNetFormer，具有基于 3D Swin 变压器的编码器和卷积神经网络和变压器的解码器。该架构的设计允许在准确性和计算成本之间满足宽范围的权衡要求。使用 CT 图像进行自我监督预训练，使用 Medical Segmentation Decathlon（MSD）数据集进行肝和肝肿瘤分割任务的 Fine-tune 和测试，并使用 MRI 图像的 BraTS 21 数据集进行脑肿瘤分割，并在 Dice 评分方面优于其他方法。

Apr, 2022

混合查询转换器：统一的图像分割架构

本文介绍了 Mixed-Query Transformer (MQ-Former) 作为一种统一的架构，用于多任务和多数据集图像分割，并使用单套权重进行处理，同时提出了混合查询策略、数据增强和开放式分割任务来进一步改进模型的泛化性能。实验证明 MQ-Former 可以有效地处理多个分割数据集和任务，并相比专门的最先进模型表现出竞争性能，同时在开放词汇 SeginW 基准测试上表现出超过 7 个百分点的性能提升。

Apr, 2024

高效激光雷达多任务感知的基于点的方法

提出了一种高效的多任务架构 PAttFormer，在点云中实现联合语义分割和目标检测，相较于单一任务网络，不需要多个特定任务点云表示的独立特征编码器，结构更小更快，同时在自动驾驶感知领域的 nuScenes 和 KITTI 基准测试中实现了竞争性的性能，多任务学习表现出显著的增益。

Apr, 2024