场景中基于图像的文本转换

CVPRMar, 2020

SwapText: Image Based Texts Transfer in Scenes

Qiangpeng Yang, Hongsheng Jin, Jun Huang, Wei Lin

TL;DR提出了 SwapText 框架，它是通过三个阶段来实现场景图像中文本交换的，包括用于替换前景图像标签的新型文本交换网络、学习用于重建背景图像的背景完成网络和使用生成的前景图像和背景图像来生成单词图像的融合网络。在几个场景文本数据集上展示了定性和定量结果，并进行了广泛的实验以证明我们的方法的有用性，如基于图像的文本翻译、文本图像合成等。

Abstract

Swapping text in scene images while preserving original fonts, colors, sizes and background textures is a challenging task due to the complex interplay between different factors. In this work, we present SwapText, a three-stage framework to transfer texts across →

scene images text swapping foreground background completion geometric distortion text datasets

发现论文，激发创造

PSGText: 带有 PSP 模块的基于笔画引导的场景文本编辑

通过三阶段框架将文字在图像中进行替换，包括使用文字交换网络将原始文字替换为所需替代文字，结合背景修复网络巧妙地重建背景图像以保持视觉和谐，并通过融合网络综合合成最终编辑的图像。

Oct, 2023

走向场景文本的场景文本翻译

通过一种名为 VTNet 的新型条件扩散方法，本文研究了从源语言（如英语）到目标语言（如中文）的 “视觉” 场景文本翻译任务，通过生成保留文本视觉特征，如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战，并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。

Aug, 2023

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

STRIVE：视频场景文本替换

本文提出了一种基于深度风格转移和学习的光度变换来替换视频中文本的方法，将问题分解为归一化、替换和转移三步，通过新的转移图像变换网络以一种时间一致的方式捕捉光照和模糊效果，实现了真实的文本转移。该方法在维持时间一致性的同时，相较于其他替代方法具有具有更优异的性能与推断速度。

Sep, 2021

野外文本编辑

本文针对自然图像中的文本编辑问题，提出了一个端到端的训练风格保留网络（SRNet）来实现文本内容的替换和修改，实验证明与其他方法相比，该方法在视觉效果和定量结果上表现良好。

Aug, 2019

场景风格文本编辑

本研究提出了一种名为 “场景风格文本编辑” 的任务，使用命名为 QuadNet 的四重框架在潜在特征空间中嵌入和调整前景文本样式，并在实际数据集上表现良好，实现前景文本内容和风格的深度编辑。

Apr, 2023

SynthText3D: 从三维虚拟世界中合成场景文本图像

本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法，相较之前的方法，此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染，并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例，最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性，得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。

Jul, 2019

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

SwinTextSpotter: 基于更好的文本检测与识别协同的场景文本定位

本文提出了一种使用 transformer encoding 的新型端到端场景文本识别框架，并通过一种新的识别转换机制，在不需要额外的矫正模块或字符级别注释的情况下显式地引导文本定位，从而使该方法在多种数据集上显著优于现有方法。

Mar, 2022

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022