- PanoSSC:探索用于自动驾驶的单目全景三维场景重构
通过在三维体素场景中进行全景分割的研究,我们提出了一种实例感知的占据网格模型 PanoSSC,可以有效地提取单个对象,将几何重建、三维语义分割和三维实例分割统一到 PanoSSC 框架中,并提出了用于评估全景体素的新指标。在 Semanti - 优质基础价值众多标签:高效标注的全景分割
通过利用视觉基础模型的描述性图像特征,我们训练了两个轻量级网络头进行语义分割和物体边界检测,并通过一种新颖的融合模块将它们的预测合并,以实现基于标准化切割的全景地图,从而显著提高了 PASTEL 在较少注释样本的情况下进行标签高效分割的性能 - CVPRCOCONut:现代化 COCO 分割
最近几十年来,视觉学界在视觉识别方面取得了显著进展,其中一部分要归功于数据集基准的进步。本研究通过提高标注质量和扩大数据集范围,引入了 COCONut 数据集,该数据集包含 383K 张图像和超过 5.18M 个分割掩模,并通过特别精心设计 - 语言引导的实例感知领域自适应全景分割
提出了一种名为 LIDAPS 的新型模型,通过 IMix 策略实现了实例级的域适应,提高了全景质量,并利用 CLIP-based domain alignment (CDA) 方法来解决语义性能下降的问题,在流行的全景无监督域适应基准测试中 - CVPRECLIPSE:全景分割的高效继续学习与视觉提示调整
通过 Visual Prompt Tuning 方法进行的连续全景分割 (ECLIPSE) 在 ADE20K 连续全景分割基准任务中展示出优势,在遗忘和可塑性方面达到了新的最先进水平。
- 深度感知全景分割
基于 RGB 图像和深度图像的全景分割的新方法;通过使用所观察场景的 3D 几何信息,减少错误合并为一个事物实例的对象数量,提高全景质量。
- 自动驾驶全景分割鲁棒性的基准测试
准确的情景感知对于辅助和自动驾驶功能 (AAD) 的安全决策至关重要。全景分割是一种有前景的感知技术,可以在像素级别上识别和分类对象、潜在危险和可驾驶空间。本研究提出了一个统一的流程,评估全景分割模型在 AAD 中的鲁棒性,并将其与传统图像 - 一种简单的潜隐扩散方法用于全景分割和蒙版修复
该论文介绍了使用稳定的扩散和潜在扩散方法进行全景分割的架构,它通过训练浅层自动编码器和扩散模型实现了对分割掩模的操控,呈现了全景分割和遮罩修复的有 promising 结果。
- 可扩展的超点图聚类三维全景分割
介绍了一种高效的方法,通过将大型 3D 点云的全景分割任务重新定义为可扩展的图聚类问题来进行。该方法可以仅使用本地辅助任务进行训练,从而在训练过程中消除了资源密集型的实例匹配步骤。此外,我们的方法可以轻松适应 superpoint 范例,进 - 无监督通用图像分割
我们提出了一种名为 U2Seg 的无监督通用分割模型,能够使用统一框架执行多种图像分割任务:实例分割、语义分割和全景分割。该方法通过利用自监督模型生成伪语义标签,并在此基础上进行自我训练,达到了与专门设计的方法相比显著的性能提升,同时也为无 - MaskConver: 重访用于全景分割的纯卷积模型
该研究论文提出了一种名为 MaskConver 的新型全景分割架构,通过预测物体和背景的中心来实现事物和物质的完全统一表示。通过引入 ConvNeXt-UNet 解码器,该模型在 COOC 全景验证集上相比基于卷积和 transformer - OneFormer3D:统一点云分割的一种 Transformer
本文提出了一种统一、简单、有效的模型 OneFormer3D,利用可学习的卷积核同时处理实例分割和语义分割,通过输入统一的实例和语义查询来训练,并在 ScanNet 测试排行榜中取得了第一名和新的最佳性能,同时在 ScanNet、ScanN - 自训练全景分割
通过自学习方法在合成到真实的领域适应问题设置中,开发了一个基于嵌入的自学习全景分割框架。
- 全景非分布式分割
深度学习在全景分割方面取得了显著进展,但是全景分割在存在分布外(OOD)对象的情况下受到严重影响。为了解决这个问题,我们提出了一种用于联合像素级语义内部分布和分布外分类的分割方法。我们基于 Panoptic 分割基准数据集 Cityscap - ICCV基于 SAM 的作物与杂草竞争层级全景分割解决方案
农业中的全景分割是一种先进的计算机视觉技术,提供了对农田组成的全面理解,旨在应对农业中的各种任务,如作物和杂草分割、植物全景分割和叶子实例分割。本研究提出了一种方法,将实例分割模型(SAM)的有效性与目标检测模型(DINO 和 YOLO-v - SANPO: 场景理解、可达性、导航、寻径和避障数据集
SANPO 是一个大规模的自我中心视频数据集,重点关注户外环境中的密集预测。它包含了在各种户外环境中收集的立体视频会话以及渲染的合成视频会话。此外,该数据集还提供了零样本基准和 SANPO 基准,以用于未来的研究。
- 基于基础模型的少样本全景分割
借助任务不可知的图像特征,我们提出了 SPINO 方法,该方法可以通过仅使用十个带注释的图像来预测高质量的伪标签,从而实现少样本全景分割,同时为基于基础模型的学习复杂视觉识别任务铺平了道路。
- 食品 SAM:任何食品分割
FoodSAM 是一种创新的框架,整合了粗糙的语义掩膜和 SAM 生成的掩膜,以提高语义分割质量,并将零样本能力扩展到实例分割和全景分割,是首个在食品图像上实现实例、全景和可提示分割的工作。
- 统一开放词汇密集视觉预测
本文提出了统一开放词汇网络(UOVN),用于联合解决四个常见的密集预测任务,通过与单独模型相比较,统一网络更适用于不同的工业应用,并能集成多样化的训练数据来提升个别任务的效果。本文解决了统一 OV 预测面临的两个主要挑战:多模态多尺度和多任 - 视频流的测试时间训练
本文研究了在线测试时训练(Online TTT)的方法,通过在视频帧上应用自我监督模型来扩展测试时训练的范畴,并提出了在线 TTT 方法,该方法比离线 TTT 方法在特定情况下取得了更好的实验效果。