低资源语言的弱监督场景文本生成
本文提出了一种弱监督场景文本检测方法(WeText),通过学习未注释或弱注释数据来训练强大的准确的场景文本检测模型,充分利用少量全注释数据集训练的监督模型,探索将半监督和弱监督学习应用于大型未注释数据集和大型弱注释数据集。该方法能够显著提高场景文本检测性能,在仅使用 229 个完全标注的场景文本图像的情况下,弱监督学习仍能够实现最先进的性能。
Oct, 2017
本文提出了一个基于弱监督和增强学习的场景文本检测方法,使用神经网络估计强化学习智能体的奖励值,且在真实数据和合成数据相结合的半监督学习中表现最佳。
Jan, 2022
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023
本文提出了一种通过图像 - 句子对学习的方法,以提取图像中本地化对象及其关系的图形表示,即场景图,其中利用了现成的对象检测器来识别和定位对象实例,并通过掩码标记预测任务预测伪标签以学习场景图。通过学习图像 - 句子对,我们的模型相较于使用人工注释的非定位场景图训练的最新方法获得了 30%的相对增益。同时,在弱监督和全监督场景图生成方面,我们的模型也展现了出色的结果,我们还探究了用于检测场景图的开放词汇设置,并呈现了首个开放式场景图生成的结果。
Sep, 2021
本文介绍了一种基于注意力生成字形和可训练字体嵌入的方法,用于解决字体风格差异和排版不规则性在场景文本识别中带来的挑战,并通过实验证明了该方法的优越性。
Sep, 2020
本文提出了一种弱监督的预训练方法 oCLIP,该方法通过联合学习视觉和文本信息来获取有效的场景文本表示,并能从弱注释文本中学习,可以有效地应对 OCR 任务。实验证明,该方法在多个公共数据集上都优于现有的预训练技术。
Mar, 2022
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
提出了一种基于场景控制、区域特征和转换器的文本生成图像方法,实现了高分辨率 (512x512) 下最先进的生成图像质量和人工评估结果,并实现了场景编辑、文本编辑和故事插图生成等新功能。
Mar, 2022
本文介绍了一种用于端到端场景文本识别的训练方法,该方法利用多语言数据集进行编码器的预训练,将编码器上的知识泛化到目标语言;同时,使用目标语言的数据集训练解码器以提高模型在目标语言数据上的表现。实验表明,该方法在小规模数据集上具有较好的识别效果。
Nov, 2021