弹性扩散:无需训练的任意尺寸图像生成
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种 “文字涂鸦” 的技术,可帮助用户控制所需的图像输出。
Nov, 2022
通过重新扩张限制性卷积感知域以及引入分散卷积和抑噪无监督引导的方法,无需任何训练或优化,实现了超高分辨率图像生成,并解决了物体重复和不合理结构的问题,表现出卓越的性能。此外,该方法还提示了低分辨率训练模型可以直接用于高分辨率图像生成的可能性,为未来的超高分辨率图像合成研究提供了新的思路。
Oct, 2023
通过引入一个缩放因子,适应各种尺寸和长宽比的图像,在保持视觉保真度的同时,改善了低分辨率图像上目标不完整和高分辨率图像上重复表示的问题。
Jun, 2023
提出了一种名为 Any-Size-Diffusion (ASD) 的两阶段流程,用于通过优化文本条件扩散模型和引入快速无缝平铺扩散 (FSTD) 技术来有效生成任意尺寸的图片,并在 LAION-COCO 和 MM-CelebA-HQ 基准测试中取得了 2 倍于传统平铺算法的推理时间减少和良好结构的图片效果。
Aug, 2023
提出了一种名为 Patch Diffusion 的通用 Patch-wise 训练框架,其核心创新是新的条件分数函数,它在原始图像的 Patch 级别包括 Patch 位置作为附加坐标通道,并且通过训练在多个尺度上对 Patch 大小进行随机和多样化,从而达到显著减少训练时间成本同时提高数据效率以帮助更广泛的用户学习扩散模型。
Apr, 2023
我们提出了一种新的开放域个性化图像生成模型 Subject-Diffusion,它不需要测试时微调,只需要一个参考图像就能在任何领域中支持个性化生成单一或多个主体。我们通过构建自动数据标注工具和使用 LAION-Aesthetics 数据集,构建了一个包含 7600 万图像及其对应主体检测边界框、分割掩模和文本描述的大规模数据集。我们设计了一个新的统一框架,通过融合文本和图像语义,并结合粗粒度位置和细粒度参考图像控制,以最大化主体的准确性和一般化能力。此外,我们还采用了一种注意力控制机制来支持多主体生成。大量的定性和定量结果表明,我们的方法在单一、多个和人类定制的图像生成方面优于其他最先进的框架。请参考我们的项目页面。
Jul, 2023
本文提出了一种基于条件扩散模型的统一框架,用于图像到图像的转换,并在四个具有挑战性的图像到图像任务中测试了这个框架,即上色,修复,裁剪和 JPEG 恢复。我们的简单实现超越了所有任务上的强 GAN 和回归基线,无需任务特定的超参数调整,架构定制或需要任何辅助丢失或先进的新技术。我们揭示了扩散目标中 L2 与 L1 损失的影响,并通过实证研究证明了自我关注在神经结构中的重要性。重要的是,我们提倡一个基于 ImageNet 的统一评估协议,具有人工评估和样本质量得分(FID,Inception Score,预训练 ResNet-50 的分类准确度和与原始图像的感知距离),我们期望这个标准化的评估协议在推进图像到图像翻译研究方面起到作用。最后,我们展示了一个通用的,多任务扩散模型的执行效果与任务特定的专家模型相当或更好。
Nov, 2021
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
本文主要讨论了通过提出新的基于模型的引导和基于修正的微调方法,解决利用单张图片进行图像编辑时过拟合问题的挑战。在扩展的实验中证明了该方法的有效性。
Dec, 2022