ISS: 文本引导下的图像跨越式 3D 形状生成
该研究探讨了从文本生成 3D 形状的任务,提出了一种新的文本引导的 3D 形状生成方法,能够在形状与颜色上产生高保真匹配文本描述的形状,技术贡献包括基于词级空间转换器和循环损失的一致性措施,并引入了形状 IMLE 进行生成的多样性。
Mar, 2022
本研究介绍了 CISP(Contrastive Image Shape Pretraining),旨在通过 2D 图像引导增强 3D 形状合成,分析结果显示,CISP 在生成质量、多样性和与输入图像的一致性方面显著优于 CLIP 模型,强调将 3D 知识融入生成模型的价值,为将多模态系统与 3D 表示相结合推进 3D 视觉内容的合成提供了有前途的方向。
Feb, 2024
本研究提出了一种名为 CLIP-Forge 的简单而有效的方法,该方法是基于文本和形状数据不可用的情况下进行的零样本文本生成图形的二阶段培训过程。该方法不仅具有避免推理时间优化的优势,而且能够为给定的文本生成多个形状。实验结果表明,该模型具有良好的零样本泛化能力,并对其行为进行了广泛的比较评估。
Oct, 2021
本文提出利用对齐预处理的方法来生成 3D shape,通过 shape-image-text-aligned space 对三种模态进行转换,并且通过两种模型提升生成效果
Jun, 2023
TextCraft 使用多分辨率和离散的潜在空间生成高保真且多样化的 3D 模型,过程中使用 CLIP 作为条件,并结合变形器模型和无分类器引导方法,优于其他同领域研究。
Nov, 2022
本文提出了 Dream3D 方法,将显式的三维形状先验引入 CLIP 导向的三维优化过程中,以生成高质量的三维形状。结合文本到图像扩散模型,Dream3D 能够生成精准而富有想象力的三维内容。
Dec, 2022
通过两个无监督方法,我们提出了 $I2I$ 和 $(I2L)^2$,利用 CLIP 关于文本和 2D 数据的知识,计算两个 3D 样本之间的神经感知相似度,从而在没有文本描述的情况下增强对比的文本 - 图像 - 3D 对齐,通过自定义损失函数和硬负样本挖掘建立多模态对比流程,我们的方法在 3D 分类和跨模态检索基准测试方面取得了与之前方法相媲美甚至更优的性能,显著改善了图像到形状和形状到图像的检索效果。
Jun, 2024
该论文提出了一种使用伪字幕训练文本引导的 3D 形状生成器的方法,通过采用低级别的图像正则化,进一步增加几何多样性,可以从给定的文本生成 3D 纹理形状,并且对模型进行了大量的实验分析。
Mar, 2023
本文提出一种新颖的文本生成 3D 模型方法(T2TD),通过引入相关形状或文本信息作为先验知识来提高 3D 模型生成模型的性能,并采用多层变压器结构逐步融合相关形状和文本信息,证明了该方法在 3D 模型生成质量上显着提高,且表现优于现有文本转形状数据集上的 SOTA 方法。
May, 2023
本文提出了一种 Text-Image 结合的场景图生成 (TISGG) 模型,采用联合特征学习模块和基于事实知识的精细调整模块来解决 SGG 模型中的长尾问题和无法识别的三元组问题,同时设计了平衡的学习策略。实验表明,在 Visual Genome 数据集上,TISGG 模型的预测性能相比一般的 SGG 模型提升了 11.7% 的 zero-shot recall。
Jun, 2023