关键词text-guided image generation
搜索结果 - 9
- pOps: 基于照片灵感的扩散算子
借助文本引导的图像生成,通过 IP-Adapter 等方法利用 CLIP 图像嵌入空间从事面向视觉的任务,但线性操作在此空间内的具体含义在不同图像之间可能变化不可预测,为此,我们引入了 pOps 框架,在 CLIP 图像嵌入上直接训练特定的 - 文本到图像扩散模型中的记忆化分析实践
对文本引导的图像生成模型进行了记忆化分析,提出三个必要条件进行定量分析,并利用反演技术验证目标图像的安全性,同时对稳定扩散模型进行了有效性实验证明。
- 培养多轮思维的文本引导图像生成
本研究针对文本引导的图像生成任务,通过引入多轮规则化方法解决了单次优化忽略细节的问题,特别是在细微变化方面。我们的方法在文本引导的生成任务中展现了高保真度的生成质量,并在与文本的语义匹配方面得到了竞争性的表现。
- TextCLIP:无对抗训练的文本指导人脸图像生成与操作
提出了 TextCLIP,这是一个统一的框架,用于无对抗训练的文本引导的图像生成和操作,通过对 Contrastive Language-Image Pre-training (CLIP) 的文本图像表示能力和 StyleGAN 的生成能力 - 基于图像信息去除的图像转换
本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息,以更好地保存文本不相关内容并避免相同映射问题,从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可 - 用扩散模型生成纺织图案
本研究使用 fine-tuned 的 diffusion model 结合 AI 模型通过文本指导来生成纺织花样,并且在视觉和数值上与基准模型进行了比较,证明了该模型在纺织花样生成方面具有更好的质量和效率,并有望在纺织行业中简化设计过程。
- 形状引导的三维形状和纹理生成的潜在神经辐射场模型 (Latent-NeRF)
本文介绍了如何采用分数蒸馏技术,在以图像为操作空间的 NeRF 模型中利用潜空间分数生成三维对象。同时,还提出了一种利用草图风格引导的 Latent-NeRF 模型,增加了对生成过程的控制能力,并在此基础上进一步将文本和草图风格引导结合,为 - KDDM6:一个中文多模态预训练模型
本研究构建了最大的中文多模态预训练数据集,提出了一个跨模态预训练方法 M6,并在众多应用领域中展示了其优异性能和高质量图像生成能力。
- MM文本引导神经图像修复
本文提出一种名为 TDANet 的图像修复模型,其通过文本的描述信息和图像的辅助区域来确定修复区的语义内容,利用双模态注意机制提取出明确的语义信息并应用图像与文本匹配损失,其结果表明,在两个公开数据集上,TDANet 模型在定量和定性评测中