偏差校正 2D 扩散的分值和提示以实现鲁棒的文本到 3D 生成

本研究提出了一种名为 DreamPortrait 的算法，它可以在一个前向传递中生成文本引导下的 3D 感知画像，通过 Score Distillation Sampling 和 GAN 损失正则化方法来优化分布，进一步设计了 3D 感知门控交叉关注机制，生成高效且具有鲁棒的多视图语义一致性的人像。

Jun, 2023

基于扩散排序的 3D 字幕观点选择

利用 DiffuRank 方法解决了在 3D 物体描述中产生错觉的问题，通过排名评估 2D 渲染视图与 3D 物体之间的对齐，提高了标题的准确性和细节，并在多个数据集上验证了其适用性。

Apr, 2024

文字图像条件扩散用于一致的文字到 3D 生成

通过将预训练的二维扩散模型引入神经光辐射场（NeRFs），文本到三维生成方法取得了巨大的进展，其中许多最先进的方法通常使用得分蒸馏采样（SDS）来优化 NeRF 表示，该方法通过预训练的文本条件的二维扩散模型（例如 ImData）监督 NeRF 优化。然而，由这种预训练扩散模型提供的监督信号仅依赖于文本提示，并不限制多视角一致性。为了将跨视角一致性引入扩散先验中，一些最近的工作通过多视角数据微调二维扩散模型，但仍缺乏细粒度的视图连贯性。为了解决这个挑战，我们将多视角图像条件纳入 NeRF 优化的监督信号中，明确强制执行细粒度的视图一致性。通过这种更强的监督，我们提出的文本到三维方法有效地减轻了由于过高密度而产生的浮动点和由于密度不足而形成的完全空白空间。我们在 T$^3$Bench 数据集上的定量评估表明，我们的方法在现有的文本到三维方法中达到了最先进的性能。我们将公开发布代码。

Dec, 2023

Diffusion$^2$: 通过正交扩散模型的得分组合生成动态 3D 内容

Diffusion$^2$ 是一种新颖的框架，通过从视频数据和多视图扩散模型获取几何一致性和时间平滑性的知识，直接生成密集的多视图和多帧图像，优化连续性 4D 表示，从而在几分钟内生成 4D 内容。

Apr, 2024