空间叙事:利用深度学习从文本生成中国园林的图像和 3D 场景
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
基于扩散的文本到图像模型引起了视觉社区、艺术家和内容创作者的极大关注。通过将预训练的 2D 扩散模型和标准的 3D 神经辐射场作为独立的工具结合起来,我们展示了它们在非学习的方式上相互配合的能力。
Sep, 2023
本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法,相较之前的方法,此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染,并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例,最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性,得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。
Jul, 2019
本文提出一种新的方法,利用预训练的文字转图像模型作为先验知识,从真实世界数据中的单个去噪过程中生成多视角图像,并且通过在现有 U-Net 网络的每个块中整合 3D 体渲染和跨帧注意力层,设计出自回归生成方法,在任意视点上呈现更具一致性的 3D 图像。与现有方法相比,我们的方法生成的结果是一致的,并且具有优秀的视觉质量(FID 降低 30%,KID 降低 37%)。
Mar, 2024
本文旨在通过文本描述生成 3D 网格材料。与现有方法合成纹理图不同,我们提出生成分段逐步建模材料图作为外观表示,支持高质量渲染并提供灵活的编辑。我们的方法通过预训练的 2D 扩散模型作为文本和材料图之间的桥梁,而不是依赖于大量的成对数据训练材料图生成模型。通过在生成的图像上初始化材料图参数,并通过可微分渲染模块进行微调,以符合文本描述。大量实验证明我们的框架在逼真度、分辨率和可编辑性方面的性能优于现有方法。
Apr, 2024
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023
本文提出了一种新的方法,结合使用预训练的图像文本扩散模型和基于生成对抗网络的 3D 生成网络,用于生成高质量,风格化的 3D 头像,并在视觉质量和多样性方面优于现有最先进的方法。
May, 2023
该文提出了一种新的文本图像生成模型,使用基于语义的标准化处理和图像嵌入策略来实现高水平的语义一致性和低水平的语义多样性,并在 CUB 和 MS-COCO 数据集上展示了其优异性能。
Apr, 2019
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
通过使用扩散生成模型,我们提出了 Dream-in-4D 方法,可以有效地实现从文本和图像生成动态的 3D 场景,该方法包括利用扩散指导学习高质量的静态 3D 资源、使用可变形神经光辐射场将学习的静态资源与形变分离、以及使用多分辨率特征网格和位移总变差损失来学习具有视频扩散指导的运动。通过用户偏好研究,我们证明了与基线方法相比,我们的方法在图像质量、动态一致性和文本保真度方面显著提高了文本到 4D 生成的效果。由于其运动分离表示,我们的方法还可以轻松应用于可控的生成,其中外观由一个或多个图像定义,无需修改运动学习阶段。因此,我们的方法首次提供了一种统一的方法,用于文本到 4D、图像到 4D 和个性化 4D 生成任务。
Nov, 2023