TextDiffuser-2:释放语言模型在文本呈现中的能力
为解决扩散模型在渲染准确、连贯文本方面的问题,我们介绍了 TextDiffuser,并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M, 进行了实验和用户研究,表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像,并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。
May, 2023
本篇论文提出了一种新的基于扩散模型的文本生成方法 —— extsc {RenderDiffusion},它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。
Apr, 2023
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
Jun, 2024
本文旨在提高高质量图像的合成与精确文字自定义,为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText,利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战,我们训练了 ControlNet 模型用于一致性解码,从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能,并展示出优越的结果。
May, 2024
我们展示了一种以文本作为强大的跨模态接口的方法,通过将图像表示为文本,利用自然语言的可解释性和灵活性,我们使用一个自动编码器,将输入图像转换为文本,并通过固定的文本到图像扩散解码器进行重构,该过程称为 De-Diffusion。实验证实了 De-Diffusion 文本表示图像的精确性和综合性,使其可以轻松地被一般的文本到图像工具和 LLMs 接收,并可用于多样化的多模态任务。
Nov, 2023
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
提出了一种通过学习感知图片布局和感知文本共同来进行灵活的图片翻译的新方法,该方法在实验中具有最佳的风格和语义图片翻译效果,并且需要的时间最短。
Feb, 2023
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,可以通过概率映射、真实的合成方式,以及多级操作等方法,有效地生成复杂和多种变化的人类运动。
Aug, 2022