场景中基于图像的文本转换
通过三阶段框架将文字在图像中进行替换,包括使用文字交换网络将原始文字替换为所需替代文字,结合背景修复网络巧妙地重建背景图像以保持视觉和谐,并通过融合网络综合合成最终编辑的图像。
Oct, 2023
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023
提出了 Diff-Text,它是一个训练免费的场景文本生成框架,能够以任何语言的文本和场景的文本描述为输入,输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示,实现了场景文本的准确生成,并在文本识别准确性和前景背景融合的自然度方面优于现有方法。
Dec, 2023
本文提出了一种基于深度风格转移和学习的光度变换来替换视频中文本的方法,将问题分解为归一化、替换和转移三步,通过新的转移图像变换网络以一种时间一致的方式捕捉光照和模糊效果,实现了真实的文本转移。该方法在维持时间一致性的同时,相较于其他替代方法具有具有更优异的性能与推断速度。
Sep, 2021
本文针对自然图像中的文本编辑问题,提出了一个端到端的训练风格保留网络(SRNet)来实现文本内容的替换和修改,实验证明与其他方法相比,该方法在视觉效果和定量结果上表现良好。
Aug, 2019
本研究提出了一种名为 “场景风格文本编辑” 的任务,使用命名为 QuadNet 的四重框架在潜在特征空间中嵌入和调整前景文本样式,并在实际数据集上表现良好,实现前景文本内容和风格的深度编辑。
Apr, 2023
本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法,相较之前的方法,此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染,并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例,最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性,得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。
Jul, 2019
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架,并通过一种新的识别转换机制,在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位,从而使该方法在多种数据集上显著优于现有方法。
Mar, 2022
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022