关键词pre-trained text-to-image diffusion models
搜索结果 - 5
- 一步有效扩散网络的现实世界图像超分辨率
我们提出了一种一步有效扩散网络(即 OSEDiff),用于实际图像超分辨率(Real-ISR)问题,通过利用给定的低质量(LQ)图像作为起始点进行扩散,消除了随机噪声采样引入的不确定性,以实现高质量(HQ)图像的生成。
- 场景图像合成:将 CLIP 引导与图结构条件整合于扩散模型中
利用预训练的文本到图像扩散模型和 CLIP 引导,我们的方法通过消除中间布局的预测,将图形知识转化为图像,从而生成与给定场景图一致的图像。实验证明,我们的方法在 COCO-stuff 和 Visual Genome 数据集的标准基准上优于现 - Text2AC-Zero:使用 2D 扩散一致合成动画角色
我们提出了一种零样本方法,基于预训练的文本到图像扩散模型实现一致的文本到动画角色合成。通过利用现有的基于文本的动作扩散模型生成多样的动作,并使用其指导文本到图像模型,我们成功地在不需要训练或微调的情况下生成了具有不同动作和风格的时序一致的视 - 无噪音分数蒸馏
通过解释 Score Distillation Sampling (SDS) 过程中存在的一个不需要的噪声项的蒸馏的必要性,本文提出了一种新的无噪声评分蒸馏(NFSD)过程,通过极少的修改实现了对预训练文本到图像扩散模型的更有效蒸馏。
- CVPR自由式布局图像合成
本文研究了一种名为 Freestyle LIS 的无限制生成模型,并通过引入 Rectified Cross-Attention 模块,集成语义掩码,成功实现了从具体布局以及大规模预训练文本 - 图像扩散模型中广泛的文本知识,生成现实的、灵