Diff-Oracle:具有可控风格和内容的 Oracle 字符生成的扩散模型
通过介绍一种新的方法,本文研究了如何从单一的文本提示产生具有一致的视觉特征的角色表达,通过定量和定性分析,证明了该方法在生成具有一致视觉特征的角色方面优于现有方法,扩展了艺术和创作表达的可能性。
Jun, 2024
本文提出了 Calliffusion 系统,采用扩散模型生成高质量的中文书法,实现了五种不同字形和著名书法家风格模拟,实验证明,模型生成的书法难以与真实艺术品区分,并使用 LoRA 进行单张迁移学习,将中文书法艺术风格转移到未知字符、甚至英文字母和数字。
May, 2023
该研究提出了一种排版文本生成系统,结合了扩散模型的控制方法和混合潜在扩散模型,实现了在排版设计上添加和修改文本,并指定字体风格、颜色和文本效果。通过合适的边缘条件,该系统能够生成指定字体的文本,同时应用提前设定的效果,如阴影和倒影,成功地将文本添加和修改在预设的背景上,保持整体的一致性。
Feb, 2024
DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架,通过指令调整训练,实现了场景文本编辑中正确文本渲染和风格控制的任务,使其具有零 - shot 泛化能力。
Apr, 2023
中文图像生成中的文本到图像合成存在独特的挑战,本文介绍了一个全面框架 PAI-Diffusion,它通过整合通用和领域特定的中文扩散模型解决了现有模型在处理中文时忽略领域上下文和不稳定性的问题,实现了上下文相关图像的生成。
Sep, 2023
本文提出一种基于 DDPM 模型从字体库生成手写汉字样本的方法,通过将新类别的 DDPM 合成样本与其他类别的真实样本相结合,提出了一种支持完整字符集的 HCCR 系统,实验结果表明,合成的样本在识别准确率上与真实样本具有相似的性能。
May, 2023
提出了一种新的任务,文本驱动的风格化图像生成,以进一步增强内容创造中的可编辑性,通过升级经过训练的文本到图像模型与可训练的调制网络,同时引入扩散样式和内容正则化,实现了高质量的风格化文本到图像生成。
Nov, 2023
该研究探讨了图像合成模型的细粒度、连续控制,提出了一种新的语义扩散引导统一框架,可以注入预训练的无条件扩散模型的语言或图像指导,并在 FFHQ 和 LSUN 数据集上进行了实验。
Dec, 2021
基于扩散模型的光学字符识别(OCR)在自动文档处理和文档智能方面对文档图像质量非常依赖,研究提出了一种新的端到端文档级图像转换方法 DECDM 来解决现有方法的数据分离和隐私保护问题,该方法通过独立训练源和目标模型,消除了配对训练的限制,提高了性能的数量和质量的比较。
Nov, 2023
使用预训练扩散模型(即 Stable Diffusion [27])进行文本图像生成的新方法,通过设计和训练轻量级字符级文本编码器,以更强的文本嵌入作为条件指导,使用大规模数据集微调扩散模型,在字符级分割图的监督下实现局部注意控制,通过推断阶段的优化过程,在合成给定图像中的文本时获得显著高的序列准确性。我们的方法优于现有技术,并展示了 UDiffText 的几个潜在应用,包括以文本为中心的图像合成、场景文本编辑等。
Dec, 2023