- 脉冲式神经位场:使仿生神经网络透视现实世界
本文提出了脉冲神经元网络(SpikingNeRF),通过将辐射光线与 SNN 的时间维度对齐,以自然地适应 Radiance Fields 的重建,使计算以脉冲为基础,无需乘法运算,从而降低能耗。
- ICCVMulti3DRefer: 文本描述与多个 3D 对象的关联
我们介绍了使用自然语言描述来定位现实世界 3D 场景中多个对象的任务。我们提出了 Multi3DRefer,扩展了 ScanRefer 数据集和任务,并引入了新的评估指标和基准方法以进一步研究多模态 3D 场景理解。此外,我们利用 CLIP - 无需重新训练的基于文本的 3D 场景编辑
我们引入了一种名为 DN2N 的文本驱动编辑方法,使用现成的基于文本的图像编辑模型修改 3D 场景图片,并提出了一种去除噪声扰动的训练数据生成方法,以及交叉视图正则化项来帮助泛化 NeRF 模型,实现了友好、直观和实用的用户编辑体验,并实现 - NeRFs: 最佳三维表示的探索
Neural Radiance Fields (NeRFs) are a new representation of 3D scenes for view synthesis and image-based rendering, widel - ICCVMetric3D:基于单张图片的零样本度量三维预测
基于大规模数据训练和解决来自不同摄像机模型的度量歧义,实现了在野外图像中无需训练即可广义泛化的单视图度量深度模型,并在 7 个零样本基准测试上展现了领先表现。
- 利用高程数据改进 NeRF 模型以利用 GIS 数据
本文提出一种基于高度数据的神经放射场方法用于重建大规模场景,将场景空间分为多个对象和背景,通过分别使用神经网络表示这些对象来改善渲染图像的精度和训练速度。
- 具有阴影指导的 NeRF 合成
本文提出了一种叫做 NeRF 综合的新任务,利用 NeRF 补丁范例的结构内容构建大尺寸的新辐射场,我们提出了一种两阶段的方法来综合新场景,控制场景的照明效果采用阴影指导而不是分离场景,我们表明了我们的方法可以生成高质量的结果,对曲面上的新 - 超点 Transformer 实现高效三维语义分割
本篇论文介绍一种新的基于超像素点的变压器架构,用于高效地语义分割大规模 3D 场景。
- 通用新视角合成的可调视觉外观
本文提出了一种通用的视图综合方法,其中可以修改渲染视图的视觉外观以匹配目标天气或照明条件,该方法基于通用的变压器架构,在不同的外观条件下训练了合成生成的场景,从而实现了对未包含在训练集中的 3D 场景的新颖视图的一致呈现,包括(i)修改它们 - CommonScenes:使用场景图生成常识化的 3D 室内场景
本文提出了一种基于场景图的全生成模型 CommonScenes,旨在通过抽象场景上下文,生成对应的可控三维场景。该模型通过两个分支的预测和生成实现对全局场景 - 对象及局部对象 - 对象关系的捕捉,同时保留形态多样性,从而在生成一致性、品质 - ICLR通用神经规范场
通过通过信息守恒原则推导出的一种信息不变的规范变换方法,实现了神经场的端到端学习,提高了计算效率和渲染质量。
- ICLR基于类比形成的 Transformer 的少样本 3D 解析
Analogical Networks 是一种以结构化标签的三维场景为主,通过类比推理对三维物体场景进行分割的模型,能够在少量内存样本的情况下有效地分割新物体。
- 在多样化的 3D 场景中生成连续的人体动作
我们介绍了一种利用稀疏关键点在三维场景中合成动画指导人类运动的方法,该方法通过将连续运动合成问题分解为沿路径行走和在关键点指定的动作之间的转换,生成长序列的动作,并在目标为原点的规范坐标系中生成运动以实现持续运动合成。
- ECCVINGeo: 利用噪声几何先验加速神经网络实时场景重建
本研究提出了一种方法,利用目标场景的几何先验来加速 3D 场景和物体的重建,以实现在移动设备上的即时重建。
- CVPRRUST: 从非构图图像中生成潜在神经场景表示
提出了 RUST(真正未放置的场景表示变换器)方法,一种仅基于 RGB 图像进行训练的无姿态方法,该方法使用 Pose 编码器获取目标图像,并学习一个潜在的姿态嵌入以供视图综合使用,证明其性能可以与具有完美摄像机姿态访问的方法相似,从而释放 - HUMANISE: 3D 场景中基于语言条件的人类运动生成
提出了一个名为 HUMANISE 的大规模、语义丰富的合成 HSI 数据集,并开展了一项名为 Language-conditioned Human Motion Generation 的新一代任务,以及相应的在场景和语言指导下的生成模型,该 - ICLRSQA3D: 3D 场景中的位置问答
提出了一个新的任务来评估具有情境理解能力的代理人的场景理解:三维情境中的位置问答(SQA3D)。在一个三维场景中,该任务要求被测试代理人首先理解其所处的情境,然后通过对其周围环境进行推理,并在该情境下回答一个问题。建立了一个具有 6.8k - GAUDI:用于沉浸式 3D 场景生成的神经结构设计师
GAUDI 是一种生成模型,能够捕捉到复杂、逼真的三维场景的分布,并能够实时渲染出来。它以一种可扩展但强大的方式解决了这个具有挑战性的问题,首先优化了一个潜在表示,将辐射场和摄像机姿态进行了解耦。然后利用这个潜在表示来学习一个生成模型,使得 - CVPRCOAP: 人的组合式关节占用情况
本研究提出了一种新型的神经隐式表示方法,旨在有效地对人体的关节运动进行建模、重构和合成,该方法利用具有局部感知能力的编码器 - 解码器结构将全身几何形状分解成局部身体部位,并学习局部复杂变形的神经隐式占据,同时考虑到身体部位的几何限制来提高 - AAAI语义场景补全:基于点 - 体素视角的差异化处理
本文介绍了一种名为 Semantic Scene Completion 的任务,提出了一个使用点和体素来预测 3D 场景语义和占用表示的点 - 体素聚合网络,该网络使用深度点流来高效捕捉场景中的语义信息,以及只含两个 3D 卷积层的轻量化体