走向场景文本的场景文本翻译

Aug, 2023

Towards Scene-Text to Scene-Text Translation

Onkar Susladkar, Prajwal Gatti, Anand Mishra

TL;DR通过一种名为 VTNet 的新型条件扩散方法，本文研究了从源语言（如英语）到目标语言（如中文）的 “视觉” 场景文本翻译任务，通过生成保留文本视觉特征，如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战，并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。

Abstract

In this work, we study the task of ``visually" translating scene text from a source language (e.g., English) to a target language (e.g., Chinese). Visual translation involves not just the recognition and translation of

visually translating scene text vtnet conditional diffusion-based method cross-lingual dataset

发现论文，激发创造

刷字：通过扩散模型在图像上合成任意场景文本

提出了 Diff-Text，它是一个训练免费的场景文本生成框架，能够以任何语言的文本和场景的文本描述为输入，输出逼真的照片。通过引入局部化的注意力约束和对比度图像级提示，实现了场景文本的准确生成，并在文本识别准确性和前景背景融合的自然度方面优于现有方法。

Dec, 2023

低资源语言的弱监督场景文本生成

本文提出了一种基于弱监督学习的场景文本生成方法，通过跨语言生成，将场景文本图片的内容和样式特征分离，并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距，实验结果显示，该方法显著提高了场景文本识别精度。

Jun, 2023

场景中基于图像的文本转换

提出了 SwapText 框架，它是通过三个阶段来实现场景图像中文本交换的，包括用于替换前景图像标签的新型文本交换网络、学习用于重建背景图像的背景完成网络和使用生成的前景图像和背景图像来生成单词图像的融合网络。在几个场景文本数据集上展示了定性和定量结果，并进行了广泛的实验以证明我们的方法的有用性，如基于图像的文本翻译、文本图像合成等。

Mar, 2020

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

场景图作为枢轴：基于视觉场景虚构的推理时无图像非监督多模式机器翻译

本研究旨在探讨一种更现实的无监督多模态机器翻译（UMMT）设定 —— 推理时无图片的 UMMT，在该模型中，模型使用源文本图像对进行训练，并且仅使用源文本输入进行测试。为实现推理时的纯文本输入，本文设计了一种视觉场景幻觉机制，用于动态生成伪视觉场景图像。通过无监督方法学习场景图像，本文提出了几个基于场景图象旋转的学习目标。在 Multi30K 数据的基准测试中，我们的 SG 方法在任务和设定上显著优于最佳基准线，帮助生成更完整，相关和流畅性的翻译，而不依赖成对图像。进一步的深入分析揭示了我们的模型如何在任务设置中取得进展。

May, 2023

SynthText3D: 从三维虚拟世界中合成场景文本图像

本文提出了一种利用 3D 虚拟世界合成场景文本图像的方法，相较之前的方法，此方法可以将 3D 虚拟场景和文本实例作为一个整体进行渲染，并通过随机移动和旋转虚拟摄像机来生成多个视角的相同文本实例，最终实现生成的场景文本图像在场景、光照、遮挡等方面的多样性，得到的生成数据在标准场景文本检测基准测试中表现更加有效和优越。

Jul, 2019

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

提高场景文本检测器的视觉语言预训练

本文研究了视觉 - 语言联合表征学习在场景文本检测中的应用，提出了利用视觉 - 语言预训练学习得到的上下文化联合表征来提高场景文本检测器的性能，通过三个 pretext tasks 来进行预训练，在标准基准测试中证明了该方法能够显著提高各种代表性的文本检测器的性能。

Apr, 2022

SceneTextGen: 使用扩散模型的无局限布局的场景文字图像合成

SceneTextGen 是一种基于扩散模型的新颖方法，通过集成具有详细排版属性的字符级编码器，字符级实例分割模型和词级定位模型，以实现更自然和多样化的文本生成，从而提高了生成图像上的字符识别率。

Jun, 2024

从二到一：一种具有视觉语言建模网络的新型场景文本识别器

本文提出一种名为 VisionLAN 的可提升文字识别速度与精度的模型，结合视觉和语言信息的 Visual Language Modeling，以直接赋予形象模型带有语言能力，从而在训练阶段引导视觉模型利用视觉文本特征以及上下文信息的语言能力进行字符特征判断，绕过视觉噪声等干扰因素。本文中的 Occlusion Scene Text 数据集通过缺失部分字符信息的数据，进一步验证了我们的模型在复杂环境下的有效性。

Aug, 2021