VSPW 2021 挑战赛第五名解决方案

ICCVDec, 2021

5th Place Solution for VSPW 2021 Challenge

Jiafan Zhuang, Yixin Zhang, Xinyu Hu, Junjie Li, Zilei Wang

TL;DR本文介绍了我们在 VSPW 2021 挑战中采用的解决方案，基于两个基准模型（Swin Transformer 和 MaskFormer），采用随机权重平均技术和分层集成策略来提高性能。同时，我们尝试解决长尾识别和过度拟合问题，虽然在测试子集上无法体现，但在验证子集上实现了改进。

Abstract

In this article, we introduce the solution we used in the VSPW 2021 Challenge. Our experiments are based on two baseline models, Swin Transformer and MaskFormer. To further boost performance, we adopt stochastic weight averaging technique and design hierarchical ensemble strategy. With

semantic segmentation stochastic weight averaging ensemble strategy long-tail recognition overfitting

发现论文，激发创造

一个统一的三维场景理解框架

提出了 UniSeg3D，这是一个统一的三维分割框架，可以在一个模型内完成全景、语义、实例、交互、指向性和开放词汇的语义分割任务。该方法将六个任务统一为由相同 Transformer 处理的统一表示，促进了任务间的知识共享，从而提升了对三维场景的综合理解。通过利用任务连接，通过设计知识蒸馏和对比学习方法，在多任务统一化的基础上提高了性能。在三个基准测试中的实验证明了 UniSeg3D 的优越性，即使是那些专门针对特定任务的方法也无法与之相比。希望 UniSeg3D 能够作为一个坚实的统一基准，并激发未来的研究。

Jul, 2024

深度学习漏洞检测在真实数据集上的性能再探讨

该研究探讨了软件漏洞对日常软件系统的重大影响，评估了深度学习模型在现实场景中的表现，并发现了性能下降和过拟合等问题，提出了一个改进的数据集用于评估模型，并提出了增强技术以提高性能。

Jul, 2024

ISWSST: 多光谱遥感图像语义分割的索引 - 空间 - 波状态叠加变压器

为了解决多光谱遥感图像语义分割任务中存在的问题，本文首次提出了一种基于指标 - 空间 - 波状态叠加变换器（ISWSST）的方法，通过量子力学的启发，将指标、空间和波状态进行叠加或融合，以模拟量子叠加状态，并通过自适应投票决策来提高分类器的精度和分割准确性；设计了无损小波金字塔编码器 - 解码器模块，实现了图像的无损重构，并基于小波变换和逆小波变换模拟了量子纠缠，从而避免了边缘提取损失；提出了结合多光谱特征的方法，以准确提取原始分辨率图像中的地面物体，并引入量子力学原理解释了 ISWSST 的优越性。实验证明，ISWSST 在多光谱遥感图像语义分割任务上优于现有的架构，有效提高了分割和边缘提取的准确性。

Jul, 2024

开放式全景分割

通过使用开放性全景分割任务，以及采用可变形适配器网络和随机全景等距投影数据增强方法，我们提出的 OOOPS 模型在三个全景数据集上均取得了令人瞩目的性能提升，特别是在野外环境 WildPASS 上达到了 + 2.2％，在室内环境 Stanford2D3D 上达到了 + 2.4％的平均交并比（mIoU）

Jul, 2024

CSFNet: 用于驾驶场景实时 RGB-X 语义分割的余弦相似度融合网络

本研究提出了余弦相似度融合网络 (CSFNet) 作为实时的 RGB-X 语义分割模型，通过设计余弦相似度注意力融合模块 (CS-AFM) 在不同模态之间有效地整合和融合特征，提高了交叉模态特征在低层的融合，使得高层可以采用单支路网络，从而实现更快速和准确的预测，并在 RGB-D/T/P 语义分割任务中验证了其效果和高效性。

Jul, 2024

PPTFormer: 无人机分割的伪多角度变换器

通过引入 PPTFormer 网络，我们提出了一种新的伪多视角转换网络，通过创建伪视角来增强多视角学习，并通过 Pseudo Multi-Perspective Attention（PMP Attention）和融合，实现了卓越的无人机图像分割结果。该方法在五个无人机分割数据集上达到了最先进的性能，验证了其能够有效模拟无人机飞行视角并显著提高分割精度，从而在无人机场景理解方面取得了具有开创性的突破，并为语义分割的未来发展树立了新的基准。

Jun, 2024

自适应随机加权平均

提出了自适应随机权重平均（ASWA）技术，该技术结合了随机权重平均（SWA）和提前停止技术，仅在验证数据集上提高泛化性能时更新模型参数的运行平均值。对于图像分类到知识图谱上的多跳推理等广泛实验中，结果表明 ASWA 在模型和数据集上都能实现统计上更好的泛化。

Jun, 2024

划分、集成与征服：自主域适应中的最后一英里 - 车载语义分割

提出了 DEC，这是一个灵活的多源数据集的 UDA 框架，通过将语义类别进行分类，并使用仅在合成数据集上训练的集成模型将它们的输出融合，来解决研究中的合成多源数据集的挑战，以获得最终的分割掩模，并可以与现有的 UDA 方法相结合，在 Cityscapes、BDD100K 和 Mapillary Vistas 上实现了最先进的性能。

Jun, 2024

MT2ST：自适应多任务到单任务学习

传统的训练方法在多任务学习 (MTL) 的广度与单任务学习 (STL) 的深度平衡方面常常面临挑战。为了解决这个问题，我们引入了多任务到单任务 (MT2ST) 框架，一种创新的方法，可以将 MTL 的普遍性与 STL 的精确性相结合。我们的工作包括两个策略：' 减弱 ' 和' 切换 '。' 减弱 ' 策略将逐渐减小辅助任务的影响，而 ' 切换 ' 策略则涉及在训练过程中的特定时间点从多任务转向单任务。

Jun, 2024

EO 数据语义分割分类算法的置信度评估

通过分割和像素级别的置信度评估，开发了用于遥感语义分割算法的置信度模型，并在 Copernicus Sentinel-2 卫星数据的地表覆盖分类等任务中表现出比其他基准模型更好的效果。

Jun, 2024