机器视觉场景理解挑战赛
本文系统地总结介绍了低成本稳定的 2.5/3D 视觉感知器件在计算机视觉领域中如何应用于室内环境中的视觉场景理解,包括数据表示,核心技术,场景理解任务,性能评价以及面临的挑战。
Mar, 2018
提出一种基于 RGBD 重建和语义分割的机器人操作主动理解未知室内场景的新方法,利用离线估计的离散视野分数场来驱动机器人的勘探扫描,结合基于体素的实时语义标注,优化遍历路径和相机轨迹,从而实现高效准确的在线场景解析。
Jun, 2019
利用大型语言模型(LLMs)和大型视觉语言模型(LVLMs)的能力,本研究提出了一个综合框架,模仿人类认知以实现对象目标导航问题的解决,通过关注、感知和存储任务特定信息,并生成相应计划。为了有效表示机器人周围的环境,提出使用语义丰富的 3D 场景模块化表示,并引入基于 LLM 的修剪策略以消除无关的目标特定信息。
Mar, 2024
本文提出了一个包含自然语言描述复杂机器人任务的数据集,以期提高机器人与人类之间的互动能力,在使用多个现实图像中的可见物体来回应多方面的指令方面进行各种复杂任务的能力是解决这一挑战的关键。我们测试了多种最先进的视觉和语言导航,以及指涉表达模型来验证这项新任务的难度,但他们中没有一个显示出有希望的结果。我们还提出了一种新颖的交互式导航 - 指针模型,为该任务提供了强有力的基线。该模型在未见测试集上表现最佳,但与人类表现相比仍有很大的改进空间。
Apr, 2019
探讨使用大量语言模型来实现场景理解的常识;介绍了三种利用语言对包含对象的室内环境进行分类的范例:(i)零样本方法,(ii)前馈分类器方法和(iii)对比分类器方法,在现代空间感知系统生成的 3D 场景图上进行操作,并通过分析每种途径,展示了显着的零样本泛化和转移能力;最后,展示了这些方法也适用于推断包含房间的建筑标签,并在真实环境中展示了零样本方法。
Sep, 2022
本文提出了一种基于层次化对象中心生成模型的场景理解方法,利用神经启发式的行动和感知框架实现了代理的对象类别和姿态的推断,并提出了一个新的基准来评估主动视觉代理的行为,并表明我们的主动推理代理在平衡认知觅食和目标驱动行为方面表现优异,远胜于监督和强化学习基线。
Feb, 2023
本篇研究提出了一种主动感知的机器人模型,通过视觉观测、场景建模以及物体形状推断,生成机器人示意图的可行运动路径,以达到在未知,复杂环境下收集足够视觉观测数据的目的。基于人工合成的数据集,实现了在实际狭小、遮盖的环境中进行物体还原的过程,并证明了其在规划和视角数等方面的高效性。
Aug, 2022