开放词汇场景解析

Mar, 2017

Open Vocabulary Scene Parsing

Hang Zhao, Xavier Puig, Bolei Zhou, Sanja Fidler, Antonio Torralba

TL;DR本文提出了一种基于图像像素和词汇概念嵌入框架的解决方案，通过试验 ADE20K 数据集来验证其在识别各种场景和物体方面的开放词汇预测能力和解释性，该方案涉及物体识别、开放词汇解析、图像像素和词汇嵌入、语义关系等关键词。

Abstract

Recognizing arbitrary objects in the wild has been a challenging problem due to the limitations of existing classification models and datasets. In this paper, we propose a new task that aims at parsing scenes with a large and open vocabulary, and several evaluation metrics are explored for this problem. Our proposed approach to this problem is a joint image

object recognition open vocabulary parsing image pixel and word embeddings semantic relations ade20k dataset

发现论文，激发创造

OpenScene: 利用开放式词汇的 3D 场景理解

使用 OpenScene 和 zero-shot 方法，借助于 CLIP 特征空间将 3D 场景中的点嵌入到文本和图像像素中，以达到不确定性的训练和开放词汇量的查询场景的目的。

Nov, 2022

ADE20K 数据集场景语义理解

本研究介绍并分析 ADE20K 数据集及其相关的 Cascade 分割模块，用于场景解析并在语义分割网络中实现显著提升。同时，发现在 ADE20K 数据集训练的场景解析网络可以应用于各种不同场景和对象。

Aug, 2016

PLA: 基于自然语言的开放词汇三维场景理解

通过对具有语义丰富标题的多视图图像进行记录，来设计分层三维标题对，使用对比学习，学习与图像相连的语言感知嵌入，并在开放词汇语义和实例分割方面表现出卓越的性能，具有鲁棒的可迁移性。

Nov, 2022

统一感知分析用于场景理解

这篇论文研究了一项名为统一感知分析的新任务，通过开发 UPerNet 多任务框架和一种训练策略来实现从给定图像中识别尽可能多的视觉概念，最后在自然场景中应用训练网络来发现视觉知识。

Jul, 2018

使用开放词汇部分分割技术实现更密集的结果

本文提出了一个具有部分分割能力的检测器，可以通过多粒度对齐来预测开放词汇的物体和它们的部件分割，并通过密集语义对应将新物体解析为其部件。该方法在不同数据集上的实验表现优于基线方法，并且具有更好的数据通用性。

May, 2023

开放词汇 SAM3D：理解任何三维场景

OV-SAM3D 是一个通用框架，用于不需要训练即可理解任何 3D 场景的开放词汇三维场景理解，通过使用 Segment Anything Model (SAM) 生成超点并通过 Recognize Anything Model (RAM) 的开放标签和操作表，结合超点和分割掩模生成最终的 3D 实例，经过对 ScanNet200 和 nuScenes 数据集的实证评估，我们的方法在未知的开放世界环境中超越了现有的开放词汇方法。

May, 2024

Object2Scene：为开放词汇的 3D 检测将对象放入上下文中

Object2Scene 和 L3Det 是用于开放词汇 3D 物体检测的首个方法，通过引入大规模的 3D 物体数据集，将物体插入到 3D 场景中来丰富 3D 场景数据集的词汇，并在不同数据集的 3D 对象之间缓解领域差异，并证实了其在 OV-ScanNet-200 基准测试中的有效性。

Sep, 2023

扩展场景图边界：通过视觉 - 概念对齐和保持实现全开词汇场景图生成

提出了一种名为 OvSGTR 的统一框架，用于从整体视角实现完全开放词汇的场景图生成，并通过知识蒸馏保留视觉 - 概念对齐，综合实验结果在 Visual Genome 基准上证明了该框架的有效性和优越性。

Nov, 2023

开放词汇物体 6D 姿态估计

我们在研究中引入了开放词汇的物体 6D 姿态估计新设置，其中使用文本提示来指定感兴趣的物体，并提出了一种新方法来通过视觉 - 语言模型从两个不同场景的图像中分割和估计物体的相对 6D 姿态。

Dec, 2023

Lowis3D: 基于语言驱动的开放世界实例级别 3D 场景理解

通过使用视觉 - 语言（VL）基础模型，将图像 - 文本对中的广义知识应用于 3D 场景的多视图图像以生成图像描述，在对象级别进行细粒度的视觉 - 语义表示学习，并通过使用无标签数据上的伪监督训练对象分组模块以解决开放世界环境中的类别定位问题，从而在 3D 语义、实例和全景分割任务中获得显著的改进。

Aug, 2023