视觉语言特征场景

Sep, 2023

Panoptic Vision-Language Feature Fields

Haoran Chen, Kenneth Blomqvist, Francesco Milano, Roland Siegwart

TL;DR我们提出了一种新的算法，Panoptic Vision-Language Feature Fields (PVLFF)，可以同时进行语义和实例分割，通过对输入帧上的 2D 实例分割提案应用对比损失函数来联合学习视觉 - 语言特征和分层实例特征，从而在 HyperSim、ScanNet 和 Replica 数据集上达到可比较的性能并在语义分割方面优于当前的 3D 开放词汇系统。

Abstract

Recently, methods have been proposed for 3D open-vocabulary semantic segmentation. Such methods are able to segment scenes into arbitrary classes given at run-time using their text description. In this paper, we propose to our knowledge the first algorithm for open-vocabulary panoptic segment

3d open-vocabulary semantic segmentation open-vocabulary panoptic segmentation panoptic vision-language feature fields contrastive loss function model architecture

发现论文，激发创造

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

全景神经场：一种语义对象感知的神经场景表示

我们提出了全视场神经场（PNF），这是一种对象感知的场景神经表示，可将场景分解为一组对象和背景。每个对象都由一个定向的 3D 边界框和一个多层感知器（MLP）表示，可以采取位置、方向和时间并输出密度和辐射率。

May, 2022

VL-Fields: 往语言为基础的神经内隐空间表征方向前进

提出了一种名为 VL-Fields 的模型，它是一种神经隐式空间表示，通过将语言驱动的分割模型中的信息与场景几何和视觉语言训练的潜在特征编码和融合，实现了开放词汇语义查询，适用于机器人领域；在语义分割任务上，我们的模型优于类似的 CLIP-Fields 模型近 10%。

May, 2023

全景式深度实验室

Panoptic-DeepLab 采取了双重 ASPP 和双重解码器结构，实现了单次扫描的全景分割，并在 Cityscapes 和 Mapillary Vistas 数据集上取得了最新的最优结果。

Oct, 2019

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

自导引开放词汇语义分割

通过提出自主引导的语义分割（Self-Seg）框架和基于 LLM 的开放式词汇评估器（LOVE），在不需要提供类别名称的情况下，实现了开放式词汇分割的最新成果，并与提供类别名称的方法相竞争，取得了 Pascal VOC、ADE20K 和 CityScapes 的最具竞争力的结果。

Dec, 2023

视频全景分割

本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务，同时提出了两个视频全景数据集，以及一种 VPSNet 网络，在 VPQ 度量下，在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。

Jun, 2020

基于 PanopticFusion 的在线体积级事物语义映射

PanopticFusion 是一种新颖的在线立体语义映射系统，能够在 stuff 和 things 的级别上密集预测背景区域（stuff）的类标签和不同前景物体（things）的各自分割，利用其空间哈希体积图表示可以重构大规模场景并提取标记的网格，通过融合 2D 语义和实例分割输出对 RGB 框架的像素级 Panoptic 标签进行首次预测，并将这些标签与深度测量一起整合到体积地图中进行 CRF 模型的规范化，通过提出的一种新的一次势近似和地图分割策略实现在线 CRF 推理，我们在 ScanNet（v2）数据集上评估了系统性能，发现其在语义和实例分割基准测试中均优于或与最先进的脱机 3D DNN 方法相比，同时演示了利用该系统生成的 3D Panoptic 地图的有前途的增强现实应用。

Mar, 2019

视觉语言模型中无需标签的开放词汇语义分割的即插即用稠密提取

通过大规模视觉 - 语言模型，我们提出了一种简单但非常有效的无需训练的技术，Plug-and-Play 开放词汇语义分割（PnP-OVSS），并通过 Salience Dropout 技术实现了与现有技术相比的显着改善。

Nov, 2023

PVUW Challenge 2023 比赛中的第三名解决方案：视频全景分割

为应对在野外进行视频全景分割任务，我们提出了一种强大的综合视频全景分割解决方案，通过将视频全景分割任务视为分割目标查询任务，利用神经网络提取的视频特征来预测分割掩码，同时添加了视频语义分割和视频实例分割等额外任务进行联合训练，提高了解决方案的学习准确性和收敛速度，最终在 VIPSeg 数据集上获得了第三名的好成绩。

Jun, 2023