视觉变幻图：利用扩散模型生成多视角视错觉

Nov, 2023

视觉变幻图：利用扩散模型生成多视角视错觉

Visual Anagrams: Generating Multi-View Optical Illusions with Diffusion Models

Daniel Geng, Inbum Park, Andrew Owens

TL;DR利用现成的文本到图像扩散模型，我们提出了一种简单的零通道方法来合成多视角光学幻象。经过逆扩散的过程中，我们估计了噪声并结合这些噪声估计对图像进行去噪。理论分析表明，该方法适用于能够被写成正交变换的视角，其中包括置换。这引出了视觉易位的概念 —— 一种在像素重新排列下会改变外观的图像。此方法还自然地扩展到具有多于两个视角的幻象。通过定性和定量的实验结果，我们展示了该方法的有效性和灵活性。

Abstract

We address the problem of synthesizing multi-view optical illusions: images that change appearance upon a transformation, such as a flip or rotation. We propose a simple, zero-shot method for obtaining these illusions from off-the-shelf →

multi-view optical illusions text-to-image diffusion models reverse diffusion process orthogonal transformations visual anagram

发现论文，激发创造

扩散幻觉：隐匿图像于平凡之中

我们探讨了计算生成特殊 “质数” 图像的问题，当这些图像在某种特定的物理排列和视角下观察时，它们会产生光学幻觉。我们提出了这个问题的一个正式定义，并引入了 Diffusion Illusions，这是第一个全面的流水线，旨在自动生成各种这些幻觉。我们研究了三种类型的幻觉，其中以不同的方式排列质数图像，并使用上述损失进行优化，使其衍生的图像与用户选择的文本提示或图像对齐。我们在这些幻觉上进行了全面的实验，从定性和定量上验证了我们提出的方法的有效性。此外，我们还展示了我们的幻觉成功进行的物理制作 - 因为它们都是为在现实世界中工作而设计的。

Dec, 2023

扩散模型是几何评论者：使用预训练的扩散先验进行单图像三维编辑

提出一种新颖的图像编辑技术，可以在单幅图像上进行三维操作，如物体旋转和平移。通过使用在广泛的文本 - 图像对上训练的强大图像扩散模型，实现了生成具有大视角变换、高外观和形状一致性的高质量三维感知图像编辑，突破了单幅图像三维感知编辑的可能性的局限。

Mar, 2024

因子化扩散：通过噪声分解引起的感知错觉

通过将图像因子分解为线性组件之和，我们提出了一种零样本方法来通过扩散模型采样来控制每个单独的组件。我们通过分解图像为低频和高频空间成分并基于不同的文本提示来调整这些成分，可以产生根据观察距离而改变外观的混合图像。我们还使用将图像分解为灰度和彩色成分，以生成在灰度下外观改变的图像，这在昏暗的光照下自然发生。此外，我们还通过运动模糊核将图像分解，从而生成在运动模糊下外观改变的图像。我们的方法通过使用组合噪声估计进行去噪，该估计是通过在不同的提示条件下对噪声估计的成分进行构建而得到的。我们还展示出，在某些分解情况下，我们的方法可以恢复先前的生成和空间控制方法。最后，我们展示了我们可以将该方法扩展到从真实图像生成混合图像。我们通过固定一个组件并生成其余的组件来解决一个逆问题。

Apr, 2024

扩散模型生成歧文

本文提出了一种基于扩散模型的多样的旋转可读图形字母设计生成方法，同时定义了 “旋转可读性”，为计算机和人类专家生成潜在的提示。

Jun, 2023

基于去噪扩散模型的光学图像转换：以异构变化检测为例

介绍一种创新的基于深度学习的方法，使用去噪扩散模型将不同光学传感器的低分辨率图像转换为高分辨率图像，保留内容并避免不需要的伪影，通过大规模多样的 Sentinel-II 和 Planet Dove 图像配对数据集进行训练和测试，解决了在多传感器光学遥感图像的图像到图像转换任务中普遍使用的无分类器引导去噪扩散隐式模型（DDIM）框架所观察到的严重图像生成问题，生成具有高度一致的补丁的大型图像，包括颜色和特征，进一步展示了该方法如何改善贝鲁特，黎巴嫩和美国奥斯汀两个城市地区的异构变化检测结果，我们的贡献包括：i）基于去噪扩散模型的光学图像转换的新的训练和测试算法；ii）全面的图像质量评估和消融研究；iii）与无分类器引导 DDIM 框架的比较；和 iv）对异构数据的变化检测实验。

Apr, 2024

AnyLens：一种带有任意渲染镜头的生成扩散模型

本研究介绍了一种将文本到图像扩散模型与图像渲染中使用的特定镜头几何结合的框架，通过像素坐标条件方法实现对渲染几何的控制，并展示了使用单个扩散模型进行鱼眼、全景视图和球体纹理等多样化视觉效果的操控。

Nov, 2023

EfficientDreamer: 高保真和鲁棒的三维创作通过正交视图扩散先验

通过引入一种新的二维扩散模型来生成由四个正交视图子图像组成的图像，从而利用正交视图图像引导生成高保真度的三维内容，并应用渐进式三维合成策略，显著提高了生成效率和质量，包括解决了 Janus 问题，并在定量和定性评估中证明了优越性。

Aug, 2023

AmbiGen：使用预训练扩散模型生成变幻字

通过利用 DeepFloyd IF 模型优化字母轮廓，我们提出了一种生成双向可读性高的 ambigrams（双层意义设计）的方法，比现有方法在英语常用词上表现出更高的准确性（11.6% 以上的提升）和编辑距离的降低（至少 41.9%）。

Dec, 2023

冷扩散：无需噪声即可反转任意图像转换

通过改变图像退化处理方法，可以构建一系列生成模型，并且即使使用完全确定性的退化方法，也可以轻松推广扩展扩散模型的训练和测试时间更新规则，为翻转任意过程的扩散模型打下基础，这一成功也质疑了该社区对扩散模型的理解。

Aug, 2022

ReNoise: 迭代噪声实现真实图像反转

最近，文本引导的扩散模型取得了强大的图像处理能力。然而，将这些方法应用于真实图像需要将图像反转到预训练的扩散模型的领域中。实现准确的反转仍然是一个挑战，特别是对于训练用于生成具有少量降噪步骤的图像的最新模型。在这项工作中，我们引入了一种具有高质量操作比的反转方法，提高重建准确性而不增加操作次数。我们的方法建立在扩散采样过程的反转基础之上，采用在每个反转采样步骤中进行迭代降噪的机制。该机制通过迭代应用预训练的扩散模型，并对这些预测进行平均，从而改善了沿前向扩散轨迹预测点的逼近性。我们使用各种采样算法和模型对我们的 RenNoise 技术的性能进行评估，并进行全面的评估和比较，展示了其在准确性和速度方面的有效性。此外，我们通过在真实图像上展示基于文本的图像编辑，证实了我们的方法的可编辑性。

Mar, 2024