GeLaTO: 生成潜在的纹理物体
GET3D 是一种 3D 生成模型,能够直接生成具有复杂拓扑结构、丰富几何细节和高保真纹理的显式纹理 3D 网格,从而显著改进了以往的方法。
Sep, 2022
该研究旨在通过新的 3D-TOGO 模型实现通用的基于文本的跨类别的 3D 对象生成。其中包括文本到视图的生成模块和视图到 3D 对象的生成模块,前者可以生成目标 3D 对象的不同视图,后者采用 pixelNeRF 模型从预先生成的视图中获取隐式 3D 神经表示。该模型表现出更好的视图一致性和字幕相似性,能够根据输入文本生成具有良好纹理和无需逐个优化的 3D 对象,并能控制生成的对象的类别、颜色和形状。在最大的 3D 物体数据集(即 ABO)上进行了广泛的实验验证,证明了 3D-TOGO 相比 text-NeRF 和 Dreamfields 能够更好地生成高质量的 3D 对象。
Dec, 2022
本研究提出了第一种用于生成有纹理的 3D 网格的生成模型,并且引入了一种全新的 3D 网格生成过程,以保证不会出现自交问题,我们在合成数据和自然图像上进行了广泛的实验,结果表明我们的方法成功学习生成了五种具有挑战性的物体类别的合理和多样化的纹理 3D 样本。
Apr, 2020
提出新的生成现实人脸几何结构和纹理重叠的方法,通过将几何纹理表示为图像并将其映射到单位矩形上,绕过了几何数据固有的参数化问题,使用先进的 GAN 方法生成新的几何结构,并提出将纹理和几何之间的关系匹配来保持高质量的真实感,证明了该方法的生成模型具有独立于训练数据的新身份的能力。
Jan, 2019
我们提出了一种称为文本引导对象生成(TOG)的新型图像编辑场景,即在实际图像中通过文本描述在空间上生成一个新的对象。我们的模型基于 Swin-Transformer,具有全局感知自编码器和适应性压缩尺度以及分层视觉特征,用于生成下一个去噪过程的区域导向。通过引入可变形特征对齐来在融合多尺度视觉和语言信息的基础上层次性地优化空间定位,我们克服了传统注意机制只关注现有视觉特征的局限性。广泛的实验证明我们的模型在提高注意机制的定位能力的同时保留了扩散模型固有的生成能力。
Mar, 2024
NeTO 是一种通过体积渲染的,利用带有自遮挡感知的折射光线跟踪优化带隐式符号距离函数(Signed Distance Function)表面表示的方法,能够重建高质量的透明物体三维图像,且在正确重建自遮挡区域方面表现优异。
Mar, 2023
机器学习在物体检测和机器抓取的 6D 姿态估计方面取得了巨大进展,然而,由于视觉线索较少和卷积神经网络对纹理的偏好,无纹理和金属物体仍然带来了显著挑战。为了解决这个问题,我们提出了一种注重学习 CAD 模型并强调物体形状特征的无纹理方法。通过在训练数据渲染过程中对纹理进行随机化处理,以使焦点集中在学习物体形状特征上,消除了在生成训练数据时对真实物体实例或最终外观的需求。我们使用了专门为工业机器人设置并特色为无纹理和金属物体的 TLESS 和 ITODD 数据集进行评估。无纹理性还增强了对图像扰动(如成像噪声、运动模糊和亮度变化)的稳健性,这在机器人应用中很常见。代码和数据集公开在 github.com/hoenigpeter/randomized_texturing。
Feb, 2024
通过 L3GO 模型,利用大型语言模型作为代理,使用 3D 仿真环境进行试错式组合,推理和生成 Diffusion-based 图像模型中难以处理的非传统对象的基于部件的 3D 网格生成。在 ShapeNet 和 UFO 基准上,我们的方法在人工和自动评估中表现优于标准 GPT-4 和其他语言代理。
Feb, 2024
本研究提出了一种自编码器体系结构,可以用于多纹理合成。该方法依赖于同时考虑二阶神经统计和自适应周期性内容的紧凑编码器和生成器,将图像嵌入一个紧凑和几何一致的潜空间,在这个空间内实现纹理表示和其空间组织的解耦。实验结果表明,该模型在视觉质量和各种纹理相关指标方面优于最先进的前馈方法。
Feb, 2023