AltDiffusion: 多语言文本到图像扩散模型

Aug, 2023

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion: A Multilingual Text-to-Image Diffusion Model

Fulong Ye, Guang Liu, Xinya Wu, Ledell Wu

TL;DRAltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Abstract

Large Text-to-Image(T2I) diffusion models have shown a remarkable capability to produce photorealistic and diverse images based on text inputs. However, existing works only support limited language input, e.g., English, Chinese, and Japanese, leaving users beyond these languages unders

t2i diffusion models multilingual altdiffusion language input culture-specific concepts

发现论文，激发创造

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

去扩散使文本成为强大的跨模态接口

我们展示了一种以文本作为强大的跨模态接口的方法，通过将图像表示为文本，利用自然语言的可解释性和灵活性，我们使用一个自动编码器，将输入图像转换为文本，并通过固定的文本到图像扩散解码器进行重构，该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性，使其可以轻松地被一般的文本到图像工具和 LLMs 接收，并可用于多样化的多模态任务。

Nov, 2023

太一扩散・记者：运用大型视觉语言模型推进双语文本到图像生成

通过扩展 CLIP 和 Stable-Diffusion-XL 的能力，我们开发了一种新的中英双语文本到图像模型 Taiyi-Diffusion-XL，该模型在中英双语图文检索和图像生成方面都表现优异，填补了开源模型领域中对双语或中文支持的重要缺口。

Jan, 2024

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

信息丰富的扩散模型的段落到图像生成

介绍了一种信息丰富的扩散模型，名为 ParaDiffusion，用于段落到图像生成任务，通过利用大型语言模型来提升图像生成模型的语义理解能力，并在长文本语义对齐训练方面取得了优异结果。

Nov, 2023

AnyText: 多语言视觉文本生成与编辑

基于扩散模型的多语言视觉文本生成的 AnyText 模型，利用 OCR 模型和扩散管道生成准确和连贯的文本，通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性，并在评估实验证明我们的方法在视觉文本生成方面表现优异。

Nov, 2023

孤立扩散：多概念文本到图像生成的优化 —— 在自由训练中使用孤立扩散引导

通过单独的扩散过程和修订方法，本研究提出了一种针对大规模文本到图像扩散模型的通用方法，以解决复杂场景中不同主题及其附件之间的相互干扰，追求更好的文本图像一致性。

Mar, 2024

eDiff-I：使用专家去噪模型集合的文本到图像扩散模型

该研究提出了一种基于扩散的生成模型，通过设计针对迭代生成过程的特殊模型，实现了更好的文本对齐，利用不同嵌入技术对模型进行调整，实现对参考图像风格进行自适应转换，并展示了一种 “文字涂鸦” 的技术，可帮助用户控制所需的图像输出。

Nov, 2022

具有深度语言理解的照片级文本到图像扩散模型

提出了一种 Imagin 技术，在理解文本方面，利用大型 transformer 语言模型，以高逼真度和深度的语言理解建立了文本到图像的扩散模型，实现了高保真的图像生成。通过一个全面的基准测试 DrawBench，该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。

May, 2022

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022