流式多扩散：基于区域的语义控制下的实时交互生成

Mar, 2024

流式多扩散：基于区域的语义控制下的实时交互生成

StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Jaerin Lee, Daniel Sungho Jung, Kanggeon Lee, Kyoung Mu Lee

TL;DR通过稳定快速推理技术和重构模型为新提出的多提示流批处理架构，我们提出了 StreamMultiDiffusion，这是第一个基于区域的实时文本到图像生成框架，在单个 RTX 2080 Ti GPU 上实现了 1.57 FPS 的区域文本到图像合成生成速度，比现有解决方案快 10 倍。

Abstract

The enormous success of diffusion models in text-to-image synthesis has made them promising candidates for the next generation of end-user applications for →

diffusion models image generation text-to-image synthesis real-time region-based

发现论文，激发创造

流动扩散：实时交互式生成的管道级解决方案

我们介绍了一种名为 StreamDiffusion 的实时扩散流水线，用于交互式图像生成。

Dec, 2023

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

通过语义扩散引导使图像合成更加可控

该研究探讨了图像合成模型的细粒度、连续控制，提出了一种新的语义扩散引导统一框架，可以注入预训练的无条件扩散模型的语言或图像指导，并在 FFHQ 和 LSUN 数据集上进行了实验。

Dec, 2021

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

SwiftDiffusion：高效扩散模型服务与附加模块

SwiftDiffusion 是一种高效生成高质量图像的系统，使用稳定的扩散模型和附加模块，通过并行计算和分布式控制网络计算，消除 LoRA 加载和合并的开销，并进行了与附加模块有效服务兼容的稳定扩散模型的优化，从而大幅降低了服务延迟，提高了服务吞吐量。

Jul, 2024

驯服文本到 360° 全景图像生成的稳定扩散

通过双分支扩散模型 PanFusion，从文本提示生成 360 度全景图像，并使用投影感知的独特交叉注意机制提供协作降噪过程中的最小畸变。

Apr, 2024

多功能扩散模型：文字、图像和变体都在一个模型中

本研究扩展现有单流程扩散管线到多任务多模态网络，通过可共享、可交换的多流程跨模式模块，将文本到图像、图像到文本等多流和变异处理统一在一个模型中，实现了风格和语义的解耦、双重和多重上下文混合等并发处理。实验证明，该框架性能优越，可启发基于扩散的通用人工智能研究。

Nov, 2022

寻找咒语：通过提示工程实现精确的文本到图像扩散合成

通过 prompt 学习，我们提出了一种学习扩散模型适当文本描述的框架，通过利用预训练扩散模型导出的质量指导和语义指导，我们的方法可以有效地学习提示，从而提高输入文本和生成图像之间的匹配。通过广泛的实验和分析，验证了所提方法的有效性。

Jan, 2024

TokenFlow：一致扩散特征用于一致视频编辑

基于文本驱动的视频编辑，我们介绍了一个利用文本到图像扩散模型的框架，生成高质量视频的同时保留输入视频的空间布局和运动，实现编辑视频的一致性。

Jul, 2023