AnyText: 多语言视觉文本生成与编辑

Nov, 2023

AnyText: 多语言视觉文本生成与编辑

AnyText: Multilingual Visual Text Generation And Editing

Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie

TL;DR基于扩散模型的多语言视觉文本生成的 AnyText 模型，利用 OCR 模型和扩散管道生成准确和连贯的文本，通过文本控制扩散损失和文本感知损失进行训练来进一步增强书写准确性，并在评估实验证明我们的方法在视觉文本生成方面表现优异。

Abstract

Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce →

diffusion-based multilingual visual text generation anytext ocr model text-control diffusion loss multilingual text images dataset

发现论文，激发创造

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

AnyTrans：用大规模模型翻译图像中的任意文本

本文介绍了 AnyTrans，这是一个全面的框架，用于 Translate AnyText in the Image (TATI) 任务，包括多语言文本翻译和图像中的文本融合。该框架利用大规模模型（如大型语言模型和文本引导扩散模型）的优势，在翻译过程中结合了文本和视觉元素的上下文线索。我们的框架采用了 LLMs 的少样本学习能力，可以考虑到整体上下文来翻译碎片化的文本。同时，扩散模型的先进修复和编辑能力使得将翻译的文本无缝融合到原始图像中成为可能，同时保留其风格和真实感。此外，我们的框架可以完全使用开源模型构建，无需训练，易于获取和扩展。为了推动 TATI 任务的进展，我们精心编制了一个名为 MTIT6 的测试数据集，其中包含六种语言对的多语言文本图像翻译数据。

Jun, 2024

AltDiffusion: 多语言文本到图像扩散模型

AltDiffusion 是一种新颖的多语种 T2I 扩散模型，它支持 18 种不同语言，并且在生成高质量图像方面优于现有的 T2I 模型，尤其是在理解文化特定概念方面。

Aug, 2023

UDiffText: 通过字符感知扩散模型在任意图像中实现高质量文本合成的统一框架

使用预训练扩散模型（即 Stable Diffusion [27]）进行文本图像生成的新方法，通过设计和训练轻量级字符级文本编码器，以更强的文本嵌入作为条件指导，使用大规模数据集微调扩散模型，在字符级分割图的监督下实现局部注意控制，通过推断阶段的优化过程，在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术，并展示了 UDiffText 的几个潜在应用，包括以文本为中心的图像合成、场景文本编辑等。

Dec, 2023

基于扩散模型的个性化文本图像生成

本文旨在提高高质量图像的合成与精确文字自定义，为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText，利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战，我们训练了 ControlNet 模型用于一致性解码，从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能，并展示出优越的结果。

May, 2024

TextDiffuser：扩散模型作为文本画家

为解决扩散模型在渲染准确、连贯文本方面的问题，我们介绍了 TextDiffuser，并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M，进行了实验和用户研究，表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像，并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。

May, 2023

便携式操控：文图生成中多功能文字操控艺术作品创作

我们提出了 AnyControl，这是一个支持多种不同控制信号任意组合的多控制图像合成框架，它使用了多模态的嵌入来引导生成过程，实现了对用户输入的整体理解，并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。

Jun, 2024

基于文本的图像到图像翻译的即插即用扩散特征

研究使用空间特征和自我关注来实现生成图片结构的微调，并将其用于文本到图像合成中，从而实现图像到图像转换。

Nov, 2022

AnyFace：自由风格的文本到人脸合成与操作

本文提出了一种名为 AnyFace 的新型自由文本生成人脸图像的方法，它具有一种新颖的两流框架来进行人脸图像的合成和操作，利用 CLIP 编码器提取面部文本和图像特征并设计了可协同跨模态蒸馏模块，还开发了一种多样化三元组损失来改善人脸多样性。实验证明，AnyFace 可以实现高质量、高分辨率、高多样性的人脸合成和操作结果，而不受输入标题数量和内容的限制。

Mar, 2022

TextDiffuser-2：释放语言模型在文本呈现中的能力

通过使用语言模型进行布局规划，TextDiffuser-2 能够实现更合理的文本布局和具有增强多样性的生成。

Nov, 2023