Dec, 2023

VolumeDiffusion: 灵活的文本到 3D 生成,配备高效的容积编码器

TL;DR该研究介绍了一种创新的 3D 体积编码器,旨在用于文字到 3D 生成。为了扩大扩散模型的训练数据,该研究开发了一种轻量级网络,能够有效地从多视图图像中获取特征体积。然后,使用 3D U-Net 在扩散模型上对 3D 体积进行训练,用于文字到 3D 生成。该研究进一步解决了不准确的物体标题和高维特征体积的挑战。该模型在公共 Objaverse 数据集上训练,展示了从文本提示生成多样且可识别的样本的有希望结果。值得注意的是,它通过文本线索在物体的部分特征上赋予了更好的控制能力,通过将多个概念无缝结合在单个物体中,促进了模型的创造力。这项研究通过引入一种高效、灵活和可扩展的表示方法,对 3D 生成的进展有着显著贡献。可在此 https URL 找到代码。