MobileDiffusion：移动设备上的次秒级文本到图像生成

Nov, 2023

MobileDiffusion：移动设备上的次秒级文本到图像生成

MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices

Yang Zhao, Yanwu Xu, Zhisheng Xiao, Tingbo Hou

TL;DR通过在架构和采样技术上进行广泛优化，我们提出了一种高效的 MobileDiffusion 文本到图像扩散模型，它在移动设备上实现了显著的亚秒级图像生成推断速度，创立了新的技术水平。

Abstract

The deployment of large-scale text-to-image diffusion models on mobile devices is impeded by their substantial model size and slow inference speed. In this paper, we propose \textbf{→

text-to-image diffusion models mobilediffusion mobile devices inference speed image generation quality

发现论文，激发创造

SnapFusion：移动设备上的文本到图像扩散模型，两秒钟内完成

该研究通过引入高效网络架构和步骤蒸馏等技术，提出了一种通用的方法，首次实现在移动设备上以不到 2 秒的速度运行文本到图像扩散模型。该模型可以使用户自己创作图像，而不需要高端 GPU 或云端推理，这将在内容创作方面具有重要作用。

Jun, 2023

移动设备上大规模扩散模型的压缩

本文介绍了基于 TensorFlow Lite 部署 Diffusion 模型的挑战和解决方案，并展示了使用 Mobile Stable Diffusion 在 Android 设备上生成 512x512 图像所需的推理延迟小于 7 秒。

Jul, 2023

速度即一切：通过 GPU 感知优化在设备上加速大型扩散模型

本文介绍了一种优化了的基础模型，通过在移动设备上实施优化，使大规模扩散模型的推理延迟得到了显著缩短，从而提高了生成性 AI 的适用性并改善了用户体验。

Apr, 2023

基于无条件扩散模型的实时文本驱动图像操作

该论文研究了基于扩散模型的无条件文本驱动图像编辑方法的效率，并开发了一种新算法，可以快速学习和应用图像操作，从而提高实现应用的潜力。

Apr, 2023

生成 AI 中的文本与图像扩散模型：一项调查

本文综述了文本到图像扩散模型的发展现状及其在生成任务中的应用；此外，介绍了文本条件下图像合成、文本引导的创意生成和图像编辑，并探讨了当前的挑战和未来方向。

Mar, 2023

文本到视频生成的网格扩散模型

通过使用网格扩散模型生成视频，我们可以通过固定数量的 GPU 内存生成高质量的视频，减小视频维度从而可以应用各种基于图像的方法，如基于文本的视频操作。我们的方法在定量和定性评估中表现优于现有方法，证明了我们的模型在真实世界中进行视频生成的适用性。

Mar, 2024

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023