我们提出了一种使用文本到图像潜在扩散模型作为通用先验来解决图像逆问题的新方法。我们引入了一种 prompt 调整方法,通过在运行反向扩散过程时动态优化文本嵌入,使得我们能够生成更符合扩散先验的图像。此外,我们提出了一种投影方法,以保持潜在变量在编码器的范围空间内的演化,从而有助于减少图像伪影问题。我们的综合方法 P2L 在各种任务(如超分辨率、去模糊和修复缺失部分)上优于基于图像和潜在扩散模型的逆问题求解器。
Oct, 2023
本文介绍了一种精确的图片逆向生成技术,实现了基于文本的图片编辑,通过引入 Pivotal inversion 和 NULL-text optimization 技术,以条件嵌入为导向,避免了模型权重的繁琐调整,并在真实照片上进行了高保真度编辑。
Nov, 2022
通过分析文本扩散模型的限制,本文提出了一种名为 TREC 的新型文本扩散模型,通过强化条件和时间感知方差缩放来减轻语言离散性问题,在与自回归、非自回归和扩散基线的对比实验中展示了 TREC 的竞争力,并通过定性分析显示其在优化样本中充分利用扩散过程的先进能力。
Feb, 2024
本文提出一种基于变分法的正则化方法 RED-Diff 来解决扩散模型后验分布不可计算的问题,通过在不同时间步引入不同的去噪器来实现对图像结构的约束,进而提高扩散模型在图像修复等领域的应用性能。
May, 2023
我们提出了一种名为 “严重性编码” 的新方法,通过在自编码器的潜在空间中估计噪声、退化信号的退化严重程度,从而在样本自适应推断时间、重建问题的难度上取得了显著性进展。同时,利用潜在扩散模型基于预测的退化严重程度来调整反向扩散采样轨迹,从而在维持与观测一致性的同时实现样本自适应的推断时间,与现有扩散法技术相比,我们的技术在计算效率方面有明显提升。
Sep, 2023
本文提出了一种新的引导图像合成框架,该框架通过将输出图像建模为受约束优化问题的解决方案来解决领域偏移问题。同时,本文还展示了通过定义基于交叉注意力的输入文本符号和用户笔画之间的对应关系,用户可以在不需要任何条件训练或微调的情况下控制不同绘制区域的语义。
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
通过自监督方法找到可解释的潜在方向,提出了一种简单的方法来缓解不合适的图像生成。进行了广泛实验证明了缓解方法的有效性,特别是对于公平生成、安全生成和负责任的文本增强生成。
Nov, 2023
我们提出了第一个框架,利用预先训练好的潜在扩散模型来解决线性反问题。在理论和实验分析中,我们都展现出在各种问题中都优于先前提出的后验采样算法,包括随机修补、块修补、去噪、去模糊处理、去除条纹和超分辨率。
Jul, 2023
本文提出了一种基于 Prompt Tuning Inversion 的精确快速反演技术,用于文本驱动的图像编辑,能够在保留输入图像高准确度的同时进行灵活的编辑,实验证明该方法在 ImageNet 数据集上的表现优于现有技术。