AnyText: 多语言视觉文本生成与编辑
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
本文介绍了 AnyTrans,这是一个全面的框架,用于 Translate AnyText in the Image (TATI) 任务,包括多语言文本翻译和图像中的文本融合。该框架利用大规模模型(如大型语言模型和文本引导扩散模型)的优势,在翻译过程中结合了文本和视觉元素的上下文线索。我们的框架采用了 LLMs 的少样本学习能力,可以考虑到整体上下文来翻译碎片化的文本。同时,扩散模型的先进修复和编辑能力使得将翻译的文本无缝融合到原始图像中成为可能,同时保留其风格和真实感。此外,我们的框架可以完全使用开源模型构建,无需训练,易于获取和扩展。为了推动 TATI 任务的进展,我们精心编制了一个名为 MTIT6 的测试数据集,其中包含六种语言对的多语言文本图像翻译数据。
Jun, 2024
AltDiffusion 是一种新颖的多语种 T2I 扩散模型,它支持 18 种不同语言,并且在生成高质量图像方面优于现有的 T2I 模型,尤其是在理解文化特定概念方面。
Aug, 2023
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023
本文旨在提高高质量图像的合成与精确文字自定义,为图像生成模型的进步做出贡献。我们提出的方法名为 CustomText,利用预训练的 TextDiffuser 模型实现对字体颜色、背景和类型的控制。为了解决小字体渲染的挑战,我们训练了 ControlNet 模型用于一致性解码,从而显著提高了文字生成性能。我们通过与先前的文本图像生成方法在公开可用的 CTW-1500 数据集和自编数据集上的比较评估了 CustomText 的性能,并展示出优越的结果。
May, 2024
为解决扩散模型在渲染准确、连贯文本方面的问题,我们介绍了 TextDiffuser,并提供了第一个带有 OCR 标注的大规模图像文本数据集 MARIO-10M, 进行了实验和用户研究,表明 TextDiffuser 可以仅基于文本提示或与文本模板图像一起创建高质量的文本图像,并进行文本修复来重构不完整的带文本图像。完成的代码、模型和数据集可在官网 https://aka.ms/textdiffuser 获得。
May, 2023
我们提出了 AnyControl,这是一个支持多种不同控制信号任意组合的多控制图像合成框架,它使用了多模态的嵌入来引导生成过程,实现了对用户输入的整体理解,并通过广泛的定量和定性评估展示了高质量、忠实的生成结果。
Jun, 2024
本文提出了一种名为 AnyFace 的新型自由文本生成人脸图像的方法,它具有一种新颖的两流框架来进行人脸图像的合成和操作,利用 CLIP 编码器提取面部文本和图像特征并设计了可协同跨模态蒸馏模块,还开发了一种多样化三元组损失来改善人脸多样性。实验证明,AnyFace 可以实现高质量、高分辨率、高多样性的人脸合成和操作结果,而不受输入标题数量和内容的限制。
Mar, 2022