JoyType：多语言视觉文本创作的稳健设计

Sep, 2024

JoyType：多语言视觉文本创作的稳健设计

JoyType: A Robust Design for Multilingual Visual Text Creation

Chao Li, Chen Jiang, Xiaolong Liu, Jun Zhao, Guoxin Wang

TL;DR本研究解决了扩散模型在生成非拉丁语言文本图像时的挑战，尤其是在特定字体或小字体文本的控制生成方面。我们提出的JoyType方法通过构建包含一百万对数据的训练集，并利用Font ControlNet提取字体风格信息，显著提升了文本风格在图像生成中的保持能力。实验结果表明，JoyType在视觉效果和准确性方面显著优于现有的最新方法，并可作为插件与其他模型整合，使得多样化图像风格的创作成为可能。

Abstract

Generating images with accurately represented text, especially in non-Latin languages, poses a significant challenge for Diffusion Models. Existing approaches, such as the integration of hint condition diagrams via auxiliary networks (e.g., ControlNet), have made strides towards addres

发现论文，激发创造

多个头胜过一个：多个本地化专家进行少样本字体生成

本论文提出一种名为MX-Font的新颖的Few-shot字体生成方法，使用多个专家提取多个特征来表示不同的本地概念，解决现有方法不能捕捉多样化当地的风格或不具有泛化到未知组件的字符的问题，这在中文和跨语言生成方面表现出色。

Apr, 2021

使用双编码器改进场景文本编辑的扩散模型

DIFFSTE是一个改善预训练扩散模型性能的双编码器设计框架，通过指令调整训练，实现了场景文本编辑中正确文本渲染和风格控制的任务，使其具有零-shot泛化能力。

Apr, 2023

RenderDiffusion: 将文本生成作为图像生成

本篇论文提出了一种新的基于扩散模型的文本生成方法—— extsc{RenderDiffusion}，它通过渲染目标文本为包含可视化语言内容的图形图像进行条件文本生成。该方法在四个条件文本生成任务和两类度量中都取得了比预训练语言模型更好的结果。

Apr, 2023

AnyText: 多语言视觉文本生成与编辑

基于扩散模型的多语言视觉文本生成的AnyText模型，利用OCR模型和扩散管道生成准确和连贯的文本，通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性，并在评估实验证明我们的方法在视觉文本生成方面表现优异。

Nov, 2023

使用现成的扩散模型生成印刷文本

该研究提出了一种排版文本生成系统，结合了扩散模型的控制方法和混合潜在扩散模型，实现了在排版设计上添加和修改文本，并指定字体风格、颜色和文本效果。通过合适的边缘条件，该系统能够生成指定字体的文本，同时应用提前设定的效果，如阴影和倒影，成功地将文本添加和修改在预设的背景上，保持整体的一致性。

Feb, 2024

优化文本到图像生成：走向准确、无需训练的字形增强图像生成

改进了LenCom-Eval和MARIO-Eval基准测试的OCR效果的训练自由框架, 提供了生成包含长且少见文本序列图像的新方法。

Mar, 2024

DiffCJK: CJK 字符高质量与广覆盖条件扩散模型

我们提出了一种新的扩散方法，利用最新的扩散式生成模型从单一的条件化标准字形生成具有指定样式的CJK字形，证明我们的方法能够生成印刷和手写风格的字体，并在生成过程中展现出出色的零射击泛化能力，适用于非CJK但以中文为灵感的文字，有助于字体的平滑样式插值和生成位图图像以进行矢量化，从而为CJK字符的高质量生成模型辅助字体创作打开了大门，无论是用于排版还是艺术创作。

Apr, 2024

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为CustomText，利用预训练的TextDiffuser模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了ControlNet模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的CTW-1500数据集和自编数据集上的比较评估了CustomText的性能，并展示出优越的结果。

May, 2024

SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成

SceneTextGen是一种基于扩散模型的新颖方法，通过集成具有详细排版属性的字符级编码器，字符级实例分割模型和词级定位模型，以实现更自然和多样化的文本生成，从而提高了生成图像上的字符识别率。

Jun, 2024

FontStudio: 形状自适应扩散模型用于一致的字体特效生成

我们引入一种新颖的形状自适应扩散模型，能够解释给定形状并在非规则画布内策划像素分布，用于生成多语言字体的文本效果；此外，我们还提出了一种训练免费的、形状自适应的效果转移方法，用于在生成的参考字母和其他字母之间传递纹理和字体效果信息。使用用户偏好研究验证了我们的FontStudio系统的有效性。

Jun, 2024