- GeoLRM:几何感知大规模重建模型用于高质量三维高斯生成
该研究介绍了一种名为几何感知大型重建模型(GeoLRM)的方法,该方法可以使用 512k 个高斯函数和 21 个输入图像在仅需 11 GB 的 GPU 内存中预测高质量的资源。该模型通过引入一种新颖的三维感知变换器结构和可变形交叉注意机制来 - 视频溅射:多功能处理的视频高斯表示
我们引入了一种新颖的显式三维表示 - 视频高斯表示,用三维高斯将视频嵌入其中,以模拟视频的外观和运动。该方法在多个视频处理任务中表现出了高效性。
- 借助半摊销偏姿态推理改进从头开始的冷冻电镜重构
我们提出了一种新的方法来通过 Cryo-Electron Microscopy 技术从 2D 图像中估计蛋白质等大分子复合物的 3D 结构,该方法采用多头架构作为一种姿态编码器,以一种摊销的方式推断出每个图像中多个可能的姿态,并通过自动解码 - 基于多模态多任务预训练的预测聚合物性质
该研究提出了 MMPolymer,一种新颖的多模态多任务预训练框架,结合了聚合物的 1D 顺序信息和 3D 结构信息,以增强下游聚合物性质预测任务。实验证明,MMPolymer 在各种聚合物性质预测任务中实现了最先进的性能。
- Toon3D: 以新视角看动画
通过 2D 绘画不一致性校正来恢复手绘图像的 3D 结构,并实现插入未曾绘制过的视角进行卡通重建。
- MolCRAFT: 基于结构的连续参数空间药物设计
我们介绍了第一个在连续参数空间中操作的 SBDD 模型,以及一种新颖的降噪采样策略,实证结果表明我们的模型在结合亲和力和更稳定的三维结构方面始终表现出优异性能,准确地对原子间相互作用进行建模。
- 3DMambaComplete:基于结构化状态空间模型的点云完善探索
基于 Mamba 框架的 3DMambaComplete 网络通过 Hyperpoints 的选择、分布和形变实现点云完整性,超过了其他点云完整性方法,经定性和定量分析证实。
- Res-U2Net:用于相位恢复和图像重建的未训练深度学习
使用未经训练的 Res-U2Net 模型进行相位恢复,并利用提取的相位信息确定物体表面的变化,并生成其三维结构的网格表示。与 GDXRAY 数据集中的 UNet 和 U2Net 相比较,对 Res-U2Net 相位恢复方法的性能进行了比较。
- 学习森林结构的神经辐射场以实现可扩展和精细监测
这项工作利用神经辐射场和遥感技术进行林业应用研究,通过实验展示了神经辐射场在提升森林监测遥感方法、表达森林三维结构的精细特征、融合不同遥感模态、改善森林三维结构衍生指标方面的潜力,将神经辐射场作为一种具有巨大潜力的计算工具,能进一步提高森林 - 3D-LFM:提升基础模型
本文介绍了一种基于 Transformer 的 3D Lifting Foundation Model (3D-LFM) 方法,通过利用变换器的置换等变性来处理 3D 数据中每个实例的不同点数,抵抗遮挡,并推广到未见过的类别,以实现 2D- - 可控高斯点云投影
使用 CoGS 方法可以直接操纵场景元素,实现对动态场景的实时控制,且在视觉保真度方面始终优于现有的动态和可控神经表示方法。
- ViVid-1-to-3:带视频扩散模型的新视角合成
利用预训练的视频扩散模型,我们演示了一种非常简单的方法,通过合成互补视角的扫描视频来生成新视角,从而实现高度一致的新视图合成。
- 关于部件、姿势和遮挡的 3D 感知视觉问答
通过引入 3D 感知的视觉问答(3D-aware VQA)任务以及相应的数据集 Super-CLEVR-3D 和模型 PO3D-VQA,本论文探索了在视觉场景的三维结构上进行合成推理的挑战性问题,实验证明 PO3D-VQA 模型在 3D 感 - 自然丰度中同位素转动光谱的 3D 结构确定的反射等变扩散
使用 KREED(Kraitchman 反射等变扩散)模型,可以根据分子公式、转动惯量和未签名的同位素置换坐标来推断分子的完整三维结构,该模型在 QM9 和 GEOM 数据集上以 > 98% 的准确率确定了正确的三维结构,并且在实验测定的取 - DyST:面向真实世界视频的动态神经场景表示
从单目真实世界视频中捕捉实际场景的三维结构和动态,通过新颖的协同训练方案与动态场景的隐含表示学习,实现视图生成并对场景的摄像机和内容进行独立控制。
- 视角文本倒置:通过预训练 2D 扩散模型释放新颖视图综合
通过冻结的扩散模型,我们的方法 ViewNeTI 可以控制生成图像中物体的三维观点,以解决新颖视角合成的问题,并且拥有良好的语义细节和照片般逼真的单视图新颖视角合成预测。
- FreeMan:走向野外三维人体姿态估计的基准评测
通过使用多台智能手机捕捉来自不同角度的 40 个人在不同场景下的 11M 帧图像,我们构建了 FreeMan 这一大规模真实世界多视图数据集,以促进 3D 姿势估计的发展,并提供了全面的评估基线,凸显了 FreeMan 所带来的巨大挑战。
- GNFactor:通用神经特征场下的多任务真实机器人学习
用视觉观察来实现机器人在无结构的真实环境中执行多样化操作任务一直是机器人学领域的一个长期存在的问题。本文提出了 GNFactor,它是一个具有通用化神经特征场的多任务机器人操作的可视化行为复制代理系统,通过共享的深度三维体素表示,GNFac - 基于灰度图像和稀疏深度图的航天器深度补全
该研究提出了一种使用 LIDAR 和单目相机来感知航天器三维结构,并使用 Spacecraft Depth Completion Network (SDCNet) 来重建密集深度图的方法,其中 SDCNet 将物体级别的航天器深度完成任务分 - CVPR从噪声 2D STEM 图像中清洁隐式三维结构
论文提出了一种可将二维噪声图像融合为有用的三维模型的不同 iable 模型,实现了无监督的三维信号与噪声分离,并在合成和实际数据方面优于多个基准模型。