AltDiffusion: 多语言文本到图像扩散模型
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
通过扩展 CLIP 和 Stable-Diffusion-XL 的能力,我们开发了一种新的中英双语文本到图像模型 Taiyi-Diffusion-XL,该模型在中英双语图文检索和图像生成方面都表现优异,填补了开源模型领域中对双语或中文支持的重要缺口。
Jan, 2024
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
介绍了一种信息丰富的扩散模型,名为 ParaDiffusion,用于段落到图像生成任务,通过利用大型语言模型来提升图像生成模型的语义理解能力,并在长文本语义对齐训练方面取得了优异结果。
Nov, 2023
基于扩散模型的多语言视觉文本生成的 AnyText 模型,利用 OCR 模型和扩散管道生成准确和连贯的文本,通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性,并在评估实验证明我们的方法在视觉文本生成方面表现优异。
Nov, 2023
通过单独的扩散过程和修订方法,本研究提出了一种针对大规模文本到图像扩散模型的通用方法,以解决复杂场景中不同主题及其附件之间的相互干扰,追求更好的文本图像一致性。
Mar, 2024
该研究提出了一种基于扩散的生成模型,通过设计针对迭代生成过程的特殊模型,实现了更好的文本对齐,利用不同嵌入技术对模型进行调整,实现对参考图像风格进行自适应转换,并展示了一种 “文字涂鸦” 的技术,可帮助用户控制所需的图像输出。
Nov, 2022
提出了一种 Imagin 技术,在理解文本方面,利用大型 transformer 语言模型,以高逼真度和深度的语言理解建立了文本到图像的扩散模型,实现了高保真的图像生成。通过一个全面的基准测试 DrawBench,该方法在图像 - 文本对齐和样本质量方面优于 VQ-GAN+CLIP、Latent Diffusion Models 和 DALL-E 2。
May, 2022