提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
SceneTextGen 是一种基于扩散模型的新颖方法,通过集成具有详细排版属性的字符级编码器,字符级实例分割模型和词级定位模型,以实现更自然和多样化的文本生成,从而提高了生成图像上的字符识别率。
Jun, 2024
通过扩充背景与前景文字的整合,Diffusion Model based Text Generator (DiffText) 创造了一种能生成真实文本图像并优化文本探测器性能的新型合成数据集方法。
Nov, 2023
DetText2Scene 是一种新颖的文本驱动大规模图像合成方法,具有高度的忠实度、可控性和自然性,在全局范围内实现了对详细人类中心化文本描述的合成。
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
DIFFSTE 是一个改善预训练扩散模型性能的双编码器设计框架,通过指令调整训练,实现了场景文本编辑中正确文本渲染和风格控制的任务,使其具有零 - shot 泛化能力。
Apr, 2023
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023
通过文本引导的三维人脸合成,从生成到编辑的统一框架,通过解耦生成几何和纹理来提高几何细节的生成效果,并利用生成几何作为纹理生成的条件,进一步提升几何与纹理的一致性结果;通过预训练扩散模型来更新面部几何或纹理以实现顺序编辑,并引入 UV 域一致性保持正则化以防止对不相关面部属性的无意更改,并提出自导向一致性权重策略以提高编辑效果与保持一致性;通过全面实验展示了该方法在人脸合成方面的优越性。
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022
通过使用 SDXL,我们提出一种低成本的微调技术来改善不同情况下文本生成的准确性,并通过将随机字符添加到原始数据集中来提高模型在生成良好形式视觉文本方面的性能。