低资源语言的弱监督场景文本生成

Jun, 2023

低资源语言的弱监督场景文本生成

Weakly Supervised Scene Text Generation for Low-resource Languages

Yangchen Xie, Xinyuan Chen, Hongjian Zhan, Palaiahankote Shivakum

TL;DR本文提出了一种基于弱监督学习的场景文本生成方法，通过跨语言生成，将场景文本图片的内容和样式特征分离，并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距，实验结果显示，该方法显著提高了场景文本识别精度。

Abstract

A large number of annotated training images is crucial for training successful scene text recognition models. However, collecting sufficient datasets can be a labor-intensive and costly process, particularly for low-resource languages. To address this challenge, →

scene text recognition auto-generating text data weakly supervised learning cross-language generation font style

发现论文，激发创造

WeText: 弱监督下的场景文本检测

本文提出了一种弱监督场景文本检测方法（WeText），通过学习未注释或弱注释数据来训练强大的准确的场景文本检测模型，充分利用少量全注释数据集训练的监督模型，探索将半监督和弱监督学习应用于大型未注释数据集和大型弱注释数据集。该方法能够显著提高场景文本检测性能，在仅使用 229 个完全标注的场景文本图像的情况下，弱监督学习仍能够实现最先进的性能。

Oct, 2017

使用深度强化学习进行弱监督场景文本检测

本文提出了一个基于弱监督和增强学习的场景文本检测方法，使用神经网络估计强化学习智能体的奖励值，且在真实数据和合成数据相结合的半监督学习中表现最佳。

Jan, 2022

走向场景文本的场景文本翻译

通过一种名为 VTNet 的新型条件扩散方法，本文研究了从源语言（如英语）到目标语言（如中文）的 “视觉” 场景文本翻译任务，通过生成保留文本视觉特征，如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战，并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。

Aug, 2023

从自然语言监督中学习生成场景图

本文提出了一种通过图像 - 句子对学习的方法，以提取图像中本地化对象及其关系的图形表示，即场景图，其中利用了现成的对象检测器来识别和定位对象实例，并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对，我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30％的相对增益。同时，在弱监督和全监督场景图生成方面，我们的模型也展现了出色的结果，我们还探究了用于检测场景图的开放词汇设置，并呈现了首个开放式场景图生成的结果。

Sep, 2021

探索场景文本识别的与字体无关的特征

本文介绍了一种基于注意力生成字形和可训练字体嵌入的方法，用于解决字体风格差异和排版不规则性在场景文本识别中带来的挑战，并通过实验证明了该方法的优越性。

Sep, 2020

Language Matters: 一种弱监督的视觉 - 语言预训练方法用于场景文字检测和定位

本文提出了一种弱监督的预训练方法 oCLIP，该方法通过联合学习视觉和文本信息来获取有效的场景文本表示，并能从弱注释文本中学习，可以有效地应对 OCR 任务。实验证明，该方法在多个公共数据集上都优于现有的预训练技术。

Mar, 2022

逼真图像合成用于准确识别场景中的文本

通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计，提出了一种新的图像合成技术，用于生成大量标注数据，以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。

Jul, 2018

基于场景的人类先验文本到图像生成技术

提出了一种基于场景控制、区域特征和转换器的文本生成图像方法，实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果，并实现了场景编辑、文本编辑和故事插图生成等新功能。

Mar, 2022

利用资源丰富的语言数据集进行资源匮乏语言的端到端场景文本识别

本文介绍了一种用于端到端场景文本识别的训练方法，该方法利用多语言数据集进行编码器的预训练，将编码器上的知识泛化到目标语言；同时，使用目标语言的数据集训练解码器以提高模型在目标语言数据上的表现。实验表明，该方法在小规模数据集上具有较好的识别效果。

Nov, 2021

高效利用语言先验进行场景文本定位

通过利用大型文本语料库中的语言知识，替换自回归场景文本定位和识别模型中传统的独热编码，提高了场景文本定位和识别性能，并实现了更准确的词语定位。

Feb, 2024