ISS: 文本引导下的图像跨越式 3D 形状生成

ICLRSep, 2022

ISS: 文本引导下的图像跨越式 3D 形状生成

ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation

Zhengzhe Liu, Peng Dai, Ruihui Li, Xiaojuan Qi, Chi-Wing Fu

TL;DR这篇论文提出了一种名为 Image as Stepping Stone (ISS) 的框架，通过两阶段特征空间对齐方法和文本指导的形状造型模块，实现了不需要成对文本 - 形状数据的通用三维形状生成，该方法表现更优越，生成的形状具有多样的纹理结构和逼真性。

Abstract

text-guided 3d shape generation remains challenging due to the absence of large paired text-shape data, the substantial semantic gap between these two modalities, and the structural complexity of 3D shapes. This paper presents a new framework called →

text-guided 3d shape generation image as stepping stone clip features shape stylization multi-view supervisions

发现论文，激发创造

基于文本指导的隐式 3D 形状生成

该研究探讨了从文本生成 3D 形状的任务，提出了一种新的文本引导的 3D 形状生成方法，能够在形状与颜色上产生高保真匹配文本描述的形状，技术贡献包括基于词级空间转换器和循环损失的一致性措施，并引入了形状 IMLE 进行生成的多样性。

Mar, 2022

能够改善基于图像的 3D 扩散的形状融合联合嵌入吗？

本研究介绍了 CISP（Contrastive Image Shape Pretraining），旨在通过 2D 图像引导增强 3D 形状合成，分析结果显示，CISP 在生成质量、多样性和与输入图像的一致性方面显著优于 CLIP 模型，强调将 3D 知识融入生成模型的价值，为将多模态系统与 3D 表示相结合推进 3D 视觉内容的合成提供了有前途的方向。

Feb, 2024

CLIP-Forge: 零样本文本生成形状

本研究提出了一种名为 CLIP-Forge 的简单而有效的方法，该方法是基于文本和形状数据不可用的情况下进行的零样本文本生成图形的二阶段培训过程。该方法不仅具有避免推理时间优化的优势，而且能够为给定的文本生成多个形状。实验结果表明，该模型具有良好的零样本泛化能力，并对其行为进行了广泛的比较评估。

Oct, 2021

基于形状 - 图像 - 文本对齐潜在表示的 Michelangelo 条件 3D 形状生成

本文提出利用对齐预处理的方法来生成 3D shape，通过 shape-image-text-aligned space 对三种模态进行转换，并且通过两种模型提升生成效果

Jun, 2023

TextCraft: 从文本生成高保真度和多样性形状的零射击方法

TextCraft 使用多分辨率和离散的潜在空间生成高保真且多样化的 3D 模型，过程中使用 CLIP 作为条件，并结合变形器模型和无分类器引导方法，优于其他同领域研究。

Nov, 2022

Dream3D: 使用 3D 形状先验和文本到图像扩散模型进行零样本文本到三维合成

本文提出了 Dream3D 方法，将显式的三维形状先验引入 CLIP 导向的三维优化过程中，以生成高质量的三维形状。结合文本到图像扩散模型，Dream3D 能够生成精准而富有想象力的三维内容。

Dec, 2022

CLIP 在学习 3D 中的应用

通过两个无监督方法，我们提出了 $I2I$ 和 $(I2L)^2$，利用 CLIP 关于文本和 2D 数据的知识，计算两个 3D 样本之间的神经感知相似度，从而在没有文本描述的情况下增强对比的文本 - 图像 - 3D 对齐，通过自定义损失函数和硬负样本挖掘建立多模态对比流程，我们的方法在 3D 分类和跨模态检索基准测试方面取得了与之前方法相媲美甚至更优的性能，显著改善了图像到形状和形状到图像的检索效果。

Jun, 2024

TAPS3D：基于伪监督的文本引导的三维纹理形状生成

该论文提出了一种使用伪字幕训练文本引导的 3D 形状生成器的方法，通过采用低级别的图像正则化，进一步增加几何多样性，可以从给定的文本生成 3D 纹理形状，并且对模型进行了大量的实验分析。

Mar, 2023

基于先验知识引导的文本 - 三维生成模型

本文提出一种新颖的文本生成 3D 模型方法（T2TD），通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能，并采用多层变压器结构逐步融合相关形状和文本信息，证明了该方法在 3D 模型生成质量上显着提高，且表现优于现有文本转形状数据集上的 SOTA 方法。

May, 2023

面向未知三元组：用于场景图生成的有效文本 - 图像联合学习

本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型，采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题，同时设计了平衡的学习策略。实验表明，在 Visual Genome 数据集上，TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。

Jun, 2023