机器视觉场景理解挑战赛

Sep, 2020

The Robotic Vision Scene Understanding Challenge

David Hall, Ben Talbot, Suman Raj Bista, Haoyang Zhang, Rohan Smith...

TL;DR利用模拟技术和新的测试方法，提出了一种用于测试具有主动机器人视觉系统的场景理解系统的标准挑战，旨在推动场景理解领域的最新研究。

Abstract

Being able to explore an environment and understand the location and type of all objects therein is important for indoor robotic platforms that must interact closely with humans. However, it is difficult to evaluate progress in this area due to a lack of standardized testing which is l

robotic platforms scene understanding robot vision simulation evaluation

发现论文，激发创造

自主智能体的 2.5/3D 室内场景理解：一份综述

本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解，包括数据表示，核心技术，场景理解任务，性能评价以及面临的挑战。

Mar, 2018

基于在线语义重构的主动场景理解

提出一种基于 RGBD 重建和语义分割的机器人操作主动理解未知室内场景的新方法，利用离线估计的离散视野分数场来驱动机器人的勘探扫描，结合基于体素的实时语义标注，优化遍历路径和相机轨迹，从而实现高效准确的在线场景解析。

Jun, 2019

认知机器人的深度功能场景理解：周边区域我能做什么？

本研究提出了一种基于深度学习的检测流程，用于在室内场景中识别功能区域，通过比较两个数据集，证明了该模型具有较好的泛化性能。

Jan, 2016

利用大型语言和视觉模型通过程序生成的三维场景表示探索未知环境的机器人

利用大型语言模型（LLMs）和大型视觉语言模型（LVLMs）的能力，本研究提出了一个综合框架，模仿人类认知以实现对象目标导航问题的解决，通过关注、感知和存储任务特定信息，并生成相应计划。为了有效表示机器人周围的环境，提出使用语义丰富的 3D 场景模块化表示，并引入基于 LLM 的修剪策略以消除无关的目标特定信息。

Mar, 2024

REVERIE: 远程实体视觉室内指称表达

本文提出了一个包含自然语言描述复杂机器人任务的数据集，以期提高机器人与人类之间的互动能力，在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航，以及指涉表达模型来验证这项新任务的难度，但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型，为该任务提供了强有力的基线。该模型在未见测试集上表现最佳，但与人类表现相比仍有很大的改进空间。

Apr, 2019

利用大型语言模型进行机器人三维场景理解

探讨使用大量语言模型来实现场景理解的常识；介绍了三种利用语言对包含对象的室内环境进行分类的范例：（i）零样本方法，（ii）前馈分类器方法和（iii）对比分类器方法，在现代空间感知系统生成的 3D 场景图上进行操作，并通过分析每种途径，展示了显着的零样本泛化和转移能力；最后，展示了这些方法也适用于推断包含房间的建筑标签，并在真实环境中展示了零样本方法。

Sep, 2022

利用交互感知在杂乱场景中找到物品

研究了基于强化学习的互动感知系统在场景探索和物体搜索方面的应用，结果表明该方法不再需要预定义的启发式模型，可在模拟和现实世界中有效地解决这一任务。

Nov, 2019

使用主动推理实现以物体为中心的场景表征

本文提出了一种基于层次化对象中心生成模型的场景理解方法，利用神经启发式的行动和感知框架实现了代理的对象类别和姿态的推断，并提出了一个新的基准来评估主动视觉代理的行为，并表明我们的主动推理代理在平衡认知觅食和目标驱动行为方面表现优异，远胜于监督和强化学习基线。

Feb, 2023

未知杂乱环境中的机器人主动神经感知与规划

本篇研究提出了一种主动感知的机器人模型，通过视觉观测、场景建模以及物体形状推断，生成机器人示意图的可行运动路径，以达到在未知，复杂环境下收集足够视觉观测数据的目的。基于人工合成的数据集，实现了在实际狭小、遮盖的环境中进行物体还原的过程，并证明了其在规划和视角数等方面的高效性。

Aug, 2022

室内场景的完整三维模型预测

本文提出了一种基于数据驱动的方法解释室内场景，并利用 CAD 3D 模型表示场景中的物体和墙壁布局，最终在 NYU 数据集上呈现了令人鼓舞的结果。

Apr, 2015