- ICLR深度 SE (3) 等变几何推理用于精确布局任务
在本文中,我们提出了一种方法,用于准确的相对位置预测,该方法在少量演示数据上可学习,可以跨对象类别变化进行泛化,并通过证明具有 SE (3) 等变性来解决此问题。
- 超越线和圆:揭示大型语言模型中的几何推理差距
大型语言模型(LLMs)在数学和算法任务中展现日益增长的能力,但它们的几何推理技能尚未被充分探索。我们研究了 LLMs 在构造性几何问题求解上的能力,这是人类数学推理发展中最基本的一步。我们的工作揭示了当前 LLMs 面临的显著挑战,尽管在 - 缩放 360 布局:重新审视非中心全景
使用单个非中心全景图,通过几何推理从室内环境中恢复 3D 布局,利用深度学习提取结构线的边界并利用非中心投影系统的特性进行新的几何处理以恢复比例尺,解决了曼哈顿环境和亚特兰大环境的遮挡问题,改进了现有的单幅全景图的 3D 布局恢复方法,是第 - 知识填字游戏:利用大型语言模型进行结构化知识的几何推理
大型语言模型(LLMs)在知识密集型任务中被广泛采用,通过其知识能力取得了令人印象深刻的性能。本研究提出了结构化知识的几何推理,其中以图结构连接了多个知识片段,模型需要填补遗漏的信息。我们使用 Knowledge Crosswords 进行 - MvDeCor:用于精细三维分割的多视角稠密对应学习
本研究提出了一种利用自我监督技术在二维领域进行细粒度三维形状分割任务的方法,并实现对 3D 形状的多视角表征,透过对比学习框架中密集对应关系的学习任务,实现对 2D 表征的无视角和几何一致性特性的学习,经实验表明,该方法在纹理和无纹理的三维 - 语义抽象:从 2D 视觉语言模型实现开放式三维场景理解
本文介绍了一种基于视觉语言模型的语义抽象框架,可以为机器人在未结构化的三维环境中推理,并学会三维空间和几何推理技能,并在两个开放式三维场景理解任务上进行了实验测试。
- ICCVMonoCInIS: 基于实例分割的相机无关单目 3D 目标检测
本文提出了一种基于实例分割的类别级位姿估计方法,利用相机独立几何推理来应对不同数据集的相机视角和内部参数变化,取得了在 KITTI3D 基准测试中超越相机依赖方法的优异表现。
- 从单个 RGB 图像学习重建非长方体房间布局的 3D 模型
该论文提出一种基于单张图片的室内布局重建方法,使用卷积神经网络和几何推理技术检测平面和垂直线条之间的关系,以及优化 3D 平面参数来实现几何一致的室内布局重建,并在现有公开数据集上进行了实验验证。
- D-NeRF:用于动态场景的神经辐射场
本文提出了 D-NeRF 方法,将神经辐射场扩展到动态领域,允许从单个相机围绕场景重建和渲染对象的新图像。通过将时间作为系统的额外输入,并将学习过程分为两个主要阶段,可以同时学习两个映射,实现控制相机视图和时间变量以及物体移动的目的。
- UprightNet:从单张图像中几何感知相机方向估计
UprightNet 是一种学习方法,通过使用几何推理,从单张室内场景的 RGB 图像中估计相机的 2DoF 方向;该方法中包含了一个神经网络,可以在两个不同的坐标系中预测场景的几何表示,并通过可微的最小二乘模块解决相机定向问题,从而实现了 - AAAIMonoGRNet: 基于几何推理的单目三维物体定位网络
提出 MonoGRNet 用于从单目 RGB 图像通过几何推理在观测到的 2D 投影和未观测到的深度维度上进行遮挡物体的 3D 检测,并通过优化 3D 包围框的位置和姿态实现关节学习,表现出最先进的性能。
- ACL通过虚拟图像进行问答的视觉化思维
本文研究了几何推理在问答中的应用,提出了动态空间记忆网络(DSMN)解决特定问题的新型深度神经网络架构,并在 FloorPlanQA 数据集上验证了其可行性。
- 多模态几何学习用于抓取和操作
本文提出使用 3D 卷积神经网络结构,融合深度学习和触觉信息来生成可用于机器人操作的丰富准确的三维模型,并通过实验证明,在几何推理方面具有优越性。
- 稠密三维物体重建的高效点云生成学习
本文提出了一种新的 3D 生成建模框架,使用 2D 卷积运算从多个视角预测 3D 结构,并联合应用几何推理和 2D 投影优化来高效地生成以密集点云形式呈现的物体形状,并引入伪渲染器来合成优化的新深度图,在单张图像 3D 对象重建任务中表现了