野外文本编辑

MMAug, 2019

Editing Text in the Wild

Liang Wu, Chengquan Zhang, Jiaming Liu, Junyu Han, Jingtuo Liu...

TL;DR本文针对自然图像中的文本编辑问题，提出了一个端到端的训练风格保留网络（SRNet）来实现文本内容的替换和修改，实验证明与其他方法相比，该方法在视觉效果和定量结果上表现良好。

Abstract

In this paper, we are interested in editing text in natural images, which aims to replace or modify a word in the source image with another one while maintaining its realistic look. This task is challenging, as the styles of both background and text need to be preserved so that the edited image is visually indistinguishable from the source image. Specificall

text editing image processing machine learning style retention network modular decomposition

发现论文，激发创造

场景风格文本编辑

本研究提出了一种名为 “场景风格文本编辑” 的任务，使用命名为 QuadNet 的四重框架在潜在特征空间中嵌入和调整前景文本样式，并在实际数据集上表现良好，实现前景文本内容和风格的深度编辑。

Apr, 2023

利用字体自适应神经网络的场景文本编辑器 STEFANN

本文介绍了一种用于在图像中修改文本的方法，该方法使用两种不同的神经网络体系结构生成目标字符，以实现透明性、一致性和准确性，旨在通过在图像上直接编辑文本来纠正错误、恢复文本和提高图像可重用性。

Mar, 2019

基于图像信息去除的图像转换

本文提出了一种利用 Image Information Removal 模块来精准地去除原始图像中与颜色和纹理相关的信息，以更好地保存文本不相关内容并避免相同映射问题，从而实现文本到图像编辑的方法。我们的方法在三个基准数据集上达到了最佳的可编辑性 - 保真度的平衡，并且我们的编辑图像比 COCO 上的之前的艺术作品更受注释者的欢迎。

May, 2023

PSGText: 带有 PSP 模块的基于笔画引导的场景文本编辑

通过三阶段框架将文字在图像中进行替换，包括使用文字交换网络将原始文字替换为所需替代文字，结合背景修复网络巧妙地重建背景图像以保持视觉和谐，并通过融合网络综合合成最终编辑的图像。

Oct, 2023

复杂文本指令下的交互式图像操作

本研究提出了一种基于复杂文本描述的图像编辑方法，在文本相关部分对输入的图像进行修改，并引入用户界面对生成的图像进行交互式重新修改，实现实时交互、灵活和准确的图像操作。

Nov, 2022

基于文本的神经运算：通过文本指令进行图像操作

本研究提出一种基于 GAN 的多模态图片编辑方法，利用自然语言指令局部修改图片特征，实现对包含多个对象的图像进行编辑，并在三个公共数据集上展示出优异的表现，包括更高的保真度和语义相关性以及更好的图像检索性能。

Aug, 2020

Text2LIVE: 文本驱动的分层图像和视频编辑

本文介绍了一种用于零样本、文本驱动外观操作的方法，利用内部数据集训练生成器，结合外部的 CLIP 模型进行损失计算，并通过生成编辑层的方式实现色彩与透明度的操作来实现高保真的自然图像和视频语义编辑。

Apr, 2022

通过文本描述学习全局图片编辑

该研究采用基于 RNN 和 GAN 的三种不同可训练模型实现了全局图像编辑，并使用 Amazon Mechanical Turk 收集文本描述用于训练这些系统，同时发现用 Graph RNN 代替 RNN 可以提高性能。

Oct, 2018

Forgedit：通过学习和遗忘进行文本指导的图像编辑

通过图像重建、文本嵌入以及使用 UNet 结构和扩散模型，我们设计了一种新的文本引导图像编辑方法 Forgedit，具有强大的编辑能力，并在具有挑战性的文本引导图像编辑基准测试 TEdBench 中超越了以往的方法 Imagic，实现了最新的 state-of-the-art 结果。

Sep, 2023

通过可学习区域实现基于文本的图像编辑

这篇论文介绍了一种基于文本提示的区域图像编辑方法，无需用户提供的掩码或草图，通过利用现有的预训练文本到图像模型和引入边界框生成器来找到与文本提示对齐的编辑区域，实现了与当前图像生成模型兼容的灵活的编辑，并处理了包含多个对象、复杂句子或长段落的复杂提示。通过广泛的用户研究实验证明我们方法在操纵图像时与提供的语言描述相一致，具有高保真度和逼真度的竞争性表现。

Nov, 2023