TripoSR:快速从单张图像重建三维对象
通过前向推理,我们介绍了一种从单张图像高效生成三维模型的新方法,利用基于 Transformer 的网络,即点解码器和三面解码器,通过混合的 Triplane-Gaussian 中间表示重建三维物体,从而在渲染速度和渲染质量上实现了平衡,并比之前的技术在质量和运行时间方面取得了更好的效果。
Dec, 2023
我们提出了第一个大规模重建模型 (LRM),能够在仅 5 秒内从单个输入图像预测对象的 3D 模型。与许多以类别为基础在小规模数据集(如 ShapeNet)上训练的先前方法不同,LRM 采用一个高度可扩展的基于 transformer 的架构,具有 5 亿个可学习参数,能够直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约 100 万个对象的海量多视图数据上训练我们的模型,包括 Objaverse 的合成渲染和 MVImgNet 的真实采集数据。这种高容量模型和大规模的训练数据的组合使得我们的模型具有很强的通用性,并能够从各种测试输入中生成高质量的 3D 重建结果,包括真实世界中的野外捕捉和生成模型的图像。可在此网站找到视频演示和可交互的 3D 网格:[https://this_URL]。
Nov, 2023
该研究提出了一种新的方法,使用单个图像进行 3D 重建,生成了一个完整的 360 度 3D 纹理网格,改进于现有方法,具有更好的几何形状和一致性。
Jun, 2023
InstantMesh 是一种从单个图像进行即时 3D 网格生成的前向框架,具有最先进的生成质量和可扩展的训练能力。通过发挥现有多视角扩散模型和基于 LRM 架构的稀疏视图重建模型的优势,InstantMesh 能够在 10 秒内创建多样化的 3D 资源。通过将可微分的等值面提取模块集成到我们的框架中,并直接在网格表示上进行优化,以提高训练效率和利用更多几何监督,例如深度和法线。公共数据集上的实验结果表明,InstantMesh 在定性和定量上明显优于其他最新的图像到 3D 基准。我们发布了 InstantMesh 的所有代码,权重和演示,希望它能为 3D 生成 AI 社区做出巨大贡献,并赋予研究人员和内容创作者更多的力量。
Apr, 2024
通过结合压缩的自注意力机制、不可微分体素渲染、场景压缩和图像特征投影等方法,我们提出了一种高效、可扩展的基于 Transformer 的编码器 - 渲染器方法,用于从单次拍摄的图像重建 3D 一致的参数化三平面,适用于大规模、无界的户外驾驶场景。
Apr, 2024
本文提出了一种新的框架,利用 Vision Transformer(ViT)和联合图像 - 文本表示模型 CLIP 的中间潜空间,用于单视图重建,通过学习从 ViT 和 CLIP 提取的深度特征与基础 3D 生成模型的潜在空间之间的映射来揭示 3D 形状的重建,且能够实现视角不受限和大遮挡情况下的 3D 形状重建。
Dec, 2022
该论文提出了一种快速、高质量的单张图像推断和呈现真实感三维重建的方法,使用基于视觉 Transformer 的三面板编码器,利用合成数据进行训练,通过卷积渲染技术对神经辐射场的规范三面板进行重建,可以在具有 3D 感知图像生成器的其他类别中应用。
May, 2023
在这项工作中,我们提出了一种高保真度的单图像到 3D 生成模型,名为 Convolutional Reconstruction Model(CRM),该模型通过将几何先验融入到网络设计中,从而克服了稀疏 3D 数据的限制,并在仅 10 秒内从图像生成高保真度的纹理网格,无需任何测试时优化。
Mar, 2024
从单视图图像重建详细的 3D 场景仍然是一项具有挑战性的任务,我们提出了一种新颖的框架,用于从单视图图像中同时高保真地恢复物体形状和纹理。我们的方法利用了提出的单视图神经隐式形状和辐射场 (SSR) 表示,利用显式的 3D 形状监督和颜色、深度和表面法线图的体素渲染,克服了部分观测下形状和外观的模糊性,同时支持从新视点渲染图像。除了个体物体,我们的方法还支持将物体水平的表示组合成灵活的场景表示,从而实现了整体场景理解和 3D 场景编辑等应用。我们进行了大量实验证实了我们方法的有效性。
Nov, 2023
本文提出了一种基于神经辐射场的方法,通过使用已有的条件图像生成器引导其 “创造” 目标物体的新视图,通过 DreamFields 和 DreamFusion 的启发,将给定的输入视图、条件先验和其他正则化参数融合在一起,从而解决了从单张图像进行 360° 拍摄的问题,并在单眼 3D 建模重建中达到了最先进的效果。
Feb, 2023