基于扩散排序的 3D 字幕观点选择

Apr, 2024

View Selection for 3D Captioning via Diffusion Ranking

Tiange Luo, Justin Johnson, Honglak Lee

TL;DR利用 DiffuRank 方法解决了在 3D 物体描述中产生错觉的问题，通过排名评估 2D 渲染视图与 3D 物体之间的对齐，提高了标题的准确性和细节，并在多个数据集上验证了其适用性。

Abstract

scalable annotation approaches are crucial for constructing extensive 3D-text datasets, facilitating a broader range of applications. However, existing methods sometimes lead to the generation of hallucinated captions, compromising caption quality. This paper explores the issue of

scalable annotation approaches 3d object captioning hallucination diffurank pre-trained models

发现论文，激发创造

带有预训练模型的可扩展三维标题生成

Cap3D 是一种自动生成三维物体描述的方法，利用图像字幕、图像文本对齐和 LLM 的预训练模型，从多个视角的 3D 资源中整合标题，既提高了效率又降低了成本，并在大规模 3D 数据集 Objaverse 上实现了 660k 3D 文本对。通过有效的提示工程，Cap3D 在 ABO 数据集的 17k 个收集的注释中产生几何描述并与人类表现不相上下。在 Cap3D 和人类字幕上调整 Text-to-3D 模型，并展示 Cap3D 优于 Point-E、Shape-E 和 DreamFusion，是一项值得关注的自动化方法。

Jun, 2023

偏差校正 2D 扩散的分值和提示以实现鲁棒的文本到 3D 生成

研究了文本到 3D 生成中的 Janus 问题，提出了得分去偏置和提示去偏置两种方法来解决该问题，并通过实验证明了这些方法的有效性。

Mar, 2023

基於預訓練多視圖擴散模型的扎實可組件化且多樣性的文本至三維

本文提出了一种名为 Grounded-Dreamer 的有效两阶段方法，通过使用预训练的多视角扩散模型，在准确遵循复杂的、构成性的文本提示的同时实现高保真度，生成能够准确遵循复杂、构成性文本提示的 3D 资产。

Apr, 2024

ViewDiff：利用文本到图像模型的 3D 一致图像生成

本文提出一种新的方法，利用预训练的文字转图像模型作为先验知识，从真实世界数据中的单个去噪过程中生成多视角图像，并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层，设计出自回归生成方法，在任意视点上呈现更具一致性的 3D 图像。与现有方法相比，我们的方法生成的结果是一致的，并且具有优秀的视觉质量（FID 降低 30%，KID 降低 37%）。

Mar, 2024

EfficientDreamer: 高保真和鲁棒的三维创作通过正交视图扩散先验

通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像，从而利用正交视图图像引导生成高保真度的三维内容，并应用渐进式三维合成策略，显著提高了生成效率和质量，包括解决了 Janus 问题，并在定量和定性评估中证明了优越性。

Aug, 2023

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

用于文本到 3D 生成的检索增强得分蒸馏

通过检索辅助的方法，RetDream 解决了文本到 3D 生成中存在的 3D 几何不一致问题，并实现了几何一致性和生成场景的忠实度的显著改进。

Feb, 2024

Bootstrap3D：利用合成数据提升三维内容创作

提出一种名为 Bootstrap3D 的新框架，它能自动生成任意数量的多视图图像，为多视图扩散模型的训练提供帮助。还引入了数据生成流水线和训练时间步骤重新安排策略，并通过大量实验证明 Bootstrap3D 能生成具有高质量、美学性、图像 - 文本对齐度和视图一致性的多视图图像。

May, 2024

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

IT3D：通过显式视图合成改进的文本生成 3D 方法

利用多视角图像和 Diffusion-GAN 方法在 Text-to-3D 技术中生成高质量图像。

Aug, 2023