- OneFormer3D:统一点云分割的一种 Transformer
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanN - 自训练全景分割
通过自学习方法在合成到真实的领域适应问题设置中,开发了一个基于嵌入的自学习全景分割框架。
- 全景非分布式分割
深度学习在全景分割方面取得了显著进展,但是全景分割在存在分布外(OOD)对象的情况下受到严重影响。为了解决这个问题,我们提出了一种用于联合像素级语义内部分布和分布外分类的分割方法。我们基于 Panoptic 分割基准数据集 Cityscap - ICCV基于 SAM 的作物与杂草竞争层级全景分割解决方案
农业中的全景分割是一种先进的计算机视觉技术,提供了对农田组成的全面理解,旨在应对农业中的各种任务,如作物和杂草分割、植物全景分割和叶子实例分割。本研究提出了一种方法,将实例分割模型(SAM)的有效性与目标检测模型(DINO 和 YOLO-v - SANPO: 场景理解、可达性、导航、寻径和避障数据集
SANPO 是一个大规模的自我中心视频数据集,重点关注户外环境中的密集预测。它包含了在各种户外环境中收集的立体视频会话以及渲染的合成视频会话。此外,该数据集还提供了零样本基准和 SANPO 基准,以用于未来的研究。
- 基于基础模型的少样本全景分割
借助任务不可知的图像特征,我们提出了 SPINO 方法,该方法可以通过仅使用十个带注释的图像来预测高质量的伪标签,从而实现少样本全景分割,同时为基于基础模型的学习复杂视觉识别任务铺平了道路。
- 食品 SAM:任何食品分割
FoodSAM 是一种创新的框架,整合了粗糙的语义掩膜和 SAM 生成的掩膜,以提高语义分割质量,并将零样本能力扩展到实例分割和全景分割,是首个在食品图像上实现实例、全景和可提示分割的工作。
- 统一开放词汇密集视觉预测
本文提出了统一开放词汇网络(UOVN),用于联合解决四个常见的密集预测任务,通过与单独模型相比较,统一网络更适用于不同的工业应用,并能集成多样化的训练数据来提升个别任务的效果。本文解决了统一 OV 预测面临的两个主要挑战:多模态多尺度和多任 - 视频流的测试时间训练
本文研究了在线测试时训练(Online TTT)的方法,通过在视频帧上应用自我监督模型来扩展测试时训练的范畴,并提出了在线 TTT 方法,该方法比离线 TTT 方法在特定情况下取得了更好的实验效果。
- 大规模 LiDAR 点云中精确实例分割的研究
研究通过聚类策略和点嵌入来改进全景分割的实例分割步骤,以解决同一个语义类别附近实例分割的挑战,实验证明该策略的有效性和多样性。
- ReMaX: 针对高效全景分割的放松优化训练
本文提出一种 ReMaX 的新机制,通过在学习时添加对分割蒙版和类别蒙版的松弛约束,可以实现更高效的全景分割,使其更易于部署,同时可以与 MobileNetV3-Small 等高效 backbones 结合使用,从而在 COCO、ADE20 - PANet: 稀疏实例提议和聚合的 LiDAR 全景分割
本篇论文提出了名为 PANet 的新型 LiDAR 宽景分割 (LPS) 框架,采用便于生成稀疏种子点的平衡采样,泡沫位移和连通组件标签算法直接将物点分组形成实例,通过实例聚合模块来提高大型物体的 LPS 性能。与其他文献相比,在 Sema - 改进基于全景的夜间或低光城市驾驶场景分割
该论文提出了一种基于域转换方法的实用且高效的新型 Panoptic Segmentation 技术,以提高自动驾驶系统在夜间或光照不良环境下的性能和鲁棒性。
- CVPR通用零样本分割的原始生成和语义相关对齐
本文研究了通用的零样本分割,该方法能够通过将语义空间中的跨类关系应用于视觉特征学习,从而实现新类别的全景、实例和语义分割。我们提出了一种生成模型,在无可见训练数据的情况下,为看不见的类别合成特征,进而实现了在零样本下的全景、实例和语义分割, - PanoOcc:面向基于相机的三维全景分割的统一占据表示
本文介绍了一种名为 PanoOcc 的方法,它是一个基于相机的 3D 全景分割方法,它使用体素查询来聚合来自多帧和多视角图像的时空信息,并将特征学习和场景表示集成到一种全面的占用表示中,用于摄像机 3D 场景理解的统一占用表示,从而实现了更 - RGB-D 变换器实现多任务场景分析
介绍了一种高效的多任务场景分析方法 ——EMSAFormer,使用基于 RGB-D Transformer 的编码器同时执行分割、定位等多项任务,在移动平台上获得最新的性能表现和速度。
- DFormer: 拓扑扩散引导的 Transformer 用于通用图像分割
本文介绍了一种名为 DFormer 的方法,用于实现全局图像分割,该方法将全局图像分割任务视为使用扩散模型的降噪过程,在地面真实掩模上添加各个层次的高斯噪声,然后学习模型从损坏掩模中预测降噪掩模,最后使用基于扩散的解码器逐渐执行掩模预测,并 - 卫星影像时间序列编码的重新思考
通过将卫星图像时间序列处理作为直接的集合预测问题,将其表示学习过程分解为三个明确步骤:集合 - 更新 - 分散,使我们的模型在 PASTIS 数据集上取得了新的最先进结果,比如 U-TAE 等自定义神经结构。此外,通过将时间和空间组件在可视 - RT-K-Net:重新审视 K-Net 实现实时全景分割
本文提出了新的改进 K-Net 结构的方法,以实现实时全景分割,达到了 60.2% 的最新性能表现。
- EDAPS: 增强型域自适应全景分割
本文介绍了一种全新的网络架构 EDAPS,它使用共享的、domain-robust 转换器编码器,以方便语义特征和实例特征的联合适应,但还针对域适应的语义和实例分割任务的特定要求设计了任务特定的解码器,从而显著提高了挑战性 panoptic