- 稳定语义:自然图像中语义表示的合成语言 - 视觉数据集
理解视觉场景的语义是计算机视觉中的基本挑战之一。我们提出了 StableSemantics 数据集,其中包括 22.4 万个人工筛选的提示、处理过的自然语言字幕、超过 200 万个合成图像和 1000 万个对应于单个名词短语的注意力地图。我 - MapVision: CVPR 2024 自主大挑战无地图驾驶技术报告
自动驾驶无需高清地图,但需要更高水平的场景理解能力。在这项竞赛中,使用多角度相机图像和标清地图来探索场景推理能力的边界。通过加入地图编码预训练和使用 YOLOX 等算法,我们对交通要素进行了更精准的检测,最终实现了 0.58 的 OLUS - 室内环境中部分观测对象的类别级神经场重建
通过引入类别级神经场,我们提出了一种改进的方法来重建场景中部分可见的物体,提高三维重建的效果,并在模拟和真实数据集上进行了实验证明。
- 使用归纳先验学习三维机器人感知
通过使用结构性归纳偏差和先验知识,在机器人感知问题中提出了多种先验知识的来源和编码方法,以解决物体定位、决策制定和场景理解等挑战性问题。
- ICMLSAM-E:利用序列模仿与视觉基础模型实现身体操作
通过 SAM-E,我们提出了一种新颖的机器人操作体系结构,通过视觉基础模型进行可 generalizable 的场景理解和长期 action 推理的序列模仿,在各种指令跟踪任务中展现出卓越的性能和更高的执行效率,并显著提高了对新任务的少样本 - 关于从点云中推断支撑关系和构建场景层次图的研究
这篇研究论文提出了一种自底向上的场景理解方法,通过推断点云中物体之间的支撑关系,利用场景中平面对的空间拓扑信息,实现了原始物体分类和支撑关系推理,并构建了包含原始级别和物体级别的场景层级图,该算法在原始分类和支撑关系推理方面表现出色,而场景 - SPIdepth: 自监督单目深度估计的加强姿势信息
自监督单眼深度估计 (SPIdepth) 是一种在自动驾驶和机器人领域应用广泛的方法,通过加强姿势网络提升深度估计的能力,在捕捉细粒度场景结构方面取得了显著进展,通过在 KITTI 和 Cityscapes 等基准数据集上的实验证明了该方法 - AccidentBlip2: 多视角运动检测的事故检测
本文提出了 AccidentBlip2,一种多模态大型语言模型,用于复杂交通环境中的环境描述和场景理解,并在实时预测事故风险方面表现出色,为自动驾驶事故预测提供了参考解决方案。
- 预训练图神经网络基于自动驾驶的智能交通场景理解模型
基于图注意力网络的通用预训练场景理解模型能够学习交通场景的通用交互和推理,支持各种下游任务,通过在城市和高速公路场景中进行验证实验,证明了该模型具有广泛应用的潜力,并通过消融实验展示了预训练任务设计的有效性。
- 高家:通过三维感知记忆库对群聚高斯进行编码
Gaga 是一个利用不一致的零样本分割模型预测的 2D 掩码来重建和分割开放环境下的 3D 场景的框架。通过利用空间信息,有效地关联不同摄像机姿势下的物体掩码,Gaga 消除了训练图像中关于视角连续变化的假设,展现出对摄像机姿势变化的鲁棒性 - CVPR通过双曲视觉层级映射提升视觉识别能力
使用 Visual Hierarchy Mapper (Hi-Mapper) 通过定义层次结构和学习层次关系的超几何空间进行提升深度神经网络 (DNNs) 的结构化理解,有效地识别和增强整个场景的可视层次结构,并在各种任务中改善 DNNs - 360+x: 一个全景多模态场景理解数据集
该研究使用多个视角和多种数据模式,提供全景视角和个人视角的场景理解数据集,以模拟真实世界中的信息访问方式,并通过 5 个不同的场景理解任务对数据集进行了评估,希望为综合场景理解提供更广泛的范围和多元化视角。
- 通过定性场景理解和解释实现可靠的自动驾驶
自动驾驶中使用的定性可解释图 (QXG) 能够通过传感器数据和机器学习模型解释自动驾驶车辆的环境,利用时空图和定性约束从原始传感器输入中提取场景语义,支持实时增量构建,可用于车内解释和决策合理化。
- 语义就够了:仅基于语义信息的 NeRF 重建
优化 Semantic-NeRF 模型以实现仅有语义输出,并移除 RGB 输出成分,通过对比实验证明这种改动对于场景理解、目标检测和分割等任务的影响,提供了渲染场景的新方式并促进了进一步的研究和发展。
- Exosense:适用于安全外骨骼导航的视觉中心场景理解系统
通过视觉为核心的场景理解系统,本论文提出了 Exosense,它能够生成丰富的全局一致性高程图,包括语义和地形可通过性信息,并展示了其对于周期性步行步态的挑战的鲁棒性以及在室内环境中构建准确的语义丰富地图的能力,同时展示了其在运动规划方面的 - 深度学习框架中的几何约束:综述
立体光测法是一种新兴的场景理解技术,本文调查了基于几何和深度学习的框架之间的重叠点,并比较了几何约束与深度学习框架中用于深度估计等问题的集成;还提出了一个针对现代深度学习框架中流行几何约束的新分类法,并提出了一些深入观察和潜在的未来研究方向 - OpenOcc:基于占据表示的开放词汇量三维场景重建
我们提出了 OpenOcc,一种将 3D 场景重建和开放词汇理解与神经辐射场结合的新型框架。通过占位表示法对场景的几何结构进行建模,并通过体素渲染将预训练的开放词汇模型蒸馏为 3D 语言场,以实现零 - shot 推理。此外,我们提出了一种 - MoAI:大规模语言和视觉模型的全智能混合
通过利用外部计算机视觉模型的输出所获取的辅助视觉信息,本文介绍了一种新型的大型语言和视觉模型(LLVM),名为混合智能(MoAI),通过整合视觉特征、外部模型的辅助特征和语言特征来在各种零样本视觉语言任务中显著优于其他 LLVMs,并且不需 - DriveVLM:自动驾驶与大型视觉语言模型的融合
DriveVLM 是一种利用 Vision-Language Models(VLMs)进行场景理解和规划的自动驾驶系统,通过一系列思维链模块实现场景描述、分析和层次规划,并提出了 DriveVLM-Dual 作为一种混合系统以解决 VLMs - 擅长标题,计数能力差:在地球观测数据上评估 GPT-4V
对大型视觉语言模型在地球观测数据中的能力进行了评估,发现其在场景理解和空间推理等任务上表现出色,但在物体定位和计数任务上有一定局限性,因此提出了一个全面的评估基准。