T$^3$Bench: 文本到 3D 生成的当前进展基准测试

Oct, 2023

T$^3$Bench: 文本到 3D 生成的当前进展基准测试

T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation

Yuze He, Yushi Bai, Matthieu Lin, Wang Zhao, Yubin Hu...

TL;DR当前的文本生成 3D 方法在建模 NeRF 时使用了预训练扩散模型，能够生成高质量的 3D 场景。本文介绍了 T^3Bench，第一个包含不同复杂级别的文本提示的全面的文本生成 3D 基准测试。我们提出了基于多视角图像和文本内容的两个自动度量标准来评估主观质量和文本与 3D 的一致性。基准测试结果显示了六种主流文本生成 3D 方法之间的性能差异，并凸显了当前方法在生成环境和多物体场景以及利用 2D 指导进行 3D 生成方面的共同困难。

Abstract

Recent methods in text-to-3d leverage powerful pretrained diffusion models to optimize NeRF. Notably, these methods are able to produce high-quality 3D scenes without training on 3D data. Due to the open-ended nature of the task, most studies evaluate their results with subjective case

text-to-3d benchmark metrics 3d generation text alignment

发现论文，激发创造

野外文本生成三维内容调查

文献调查了最新的文本生成三维内容的方法，并详细介绍了该领域的背景、数据集、评估指标以及不同的三维表示方法。通过对生成流程的分类和优劣势的分析，为进一步探索基于文本的三维内容创建提供了启示，并指出了未来研究的几个有希望的方向。

May, 2024

Instant3D：稀疏视图生成和大型重建模型下的快速文本到 3D

通过使用两阶段的方法 —— 首先使用精调的 2D 文本到图像扩散模型一次性生成稀疏一致的四个结构化视图，然后利用一种新颖的基于 Transformer 的稀疏视图重构器直接回归生成的图像的 NeRF—— 我们提出了 Instant3D，一种新颖的方法，以前馈方式从文本提示中生成高质量、多样化的 3D 资产。通过大量实验证明，我们的方法可以在 20 秒内生成高质量、多样化且无 Janus 问题的 3D 资产，比之前需要 1 到 10 小时的基于优化的方法快两个数量级。

Nov, 2023

多任务基准测试中文本至图像模型的人类评估

我们提供了一个新的多任务基准，用于评估文本到图像模型，在计算机视觉和机器学习领域中进行了广泛的研究，我们进行了人类评估，比较了最常见的开源（稳定扩散）和商业（DALL-E 2）模型，在三个难度级别上的三个任务上，跨十个提示，提供了 3,600 个评分。

Nov, 2022

Dual3D: 双模多视角潜在扩散下高效一致的文本到 3D 生成

我们提出了 Dual3D，一种新颖的文本到 3D 生成框架，仅需 1 分钟从文本生成高质量的 3D 资产。其中关键组件是双模态多视图潜在扩散模型，通过单个潜在去噪网络可以有效去噪多视图潜在，在 3D 模式下可以生成一致渲染的三面神经表面实现去噪。我们通过预训练的文本到图像潜在扩散模型调整多数模块，避免了从头训练的昂贵代价。同时，我们提出了双模态切换推理策略，仅使用 1/10 的去噪步骤和 3D 模式，在仅 10 秒的时间内成功生成高质量的 3D 资产，同时可以通过高效的纹理细化过程进一步增强 3D 资产的纹理，大量实验证明我们的方法在显著减少生成时间的同时提供了最先进的性能。

May, 2024

ET3D：通过多视角蒸馏实现高效的文本到三维生成

通过使用大型预训练的文本到图像扩散模型生成的图像作为监督信号，我们提出了一种高效的文本到 3D 生成方法，在消费级显卡上仅需约 8 毫秒即可根据文本提示生成一个 3D 资产，并且不需要 3D 训练数据，通过提炼预训练图像扩散模型为高效文本到 3D 生成提供了一种替代方法。

Nov, 2023

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

3DBench：可扩展的 3D 基准测试和指令调优数据集

评估多模态大型语言模型（MLLMs）的性能，集成点云和语言，面临重大挑战。缺乏全面评估阻碍确定这些模型是否真正代表进步，从而妨碍该领域的进一步发展。我们引入了可扩展的 3D 基准测试和大规模指令调整数据集 3DBench，提供了一个全面评估 MLLMs 的可扩展平台，以解决这些问题。该基准测试覆盖了从物体级到场景级的广泛空间和语义范围，涉及感知和规划任务，并且我们提出了一个严格的流程来自动生成可扩展的 3D 指令调整数据集，总共涵盖了 10 个多模态任务，共生成了超过 23 万个问答对。通过对热门 MLLMs 的彻底实验评估、与现有数据集的比较以及训练方案的变异，我们展示了 3DBench 的优越性，为当前的局限性和潜在研究方向提供了有价值的见解。

Apr, 2024

DEsignBench：DALL-E 3 探索和基准测试想象视觉设计

我们介绍了 DEsignBench，一个针对视觉设计场景量身定制的文本到图像（T2I）生成基准。我们通过 DEsignBench 评估 DALL-E 3 和其他领先的 T2I 模型，开发了一种全面的可视化展示，用于侧边比较不同模型的生成图像。除了人工评估外，我们还引入了第一个由 GPT-4V 提供支持的自动图像生成评估器。

Oct, 2023

Instant3D：即时文本到三维生成

提出了一种新的基于文本的 3D 生成框架，名为 Instant3D，使用前向网络在不到一秒的时间内为未见的文本提示创建一个 3D 对象，并解决了 Janus 问题的多头效应。

Nov, 2023

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024