基于 CNN 的带有合成数据引擎的场景中文文本识别算法
本文提出了一个自然场景文本识别的框架,使用深度神经网络模型和合成数据训练三种不同方式的单词识别模型,能够显著提高对标准数据集的性能表现,而且不需要任何人工标记数据和零数据采集成本。
Jun, 2014
本文提出了一种基于卷积特征映射中的字符模型的场景文本识别方法,可以避免基于分割的识别方法中的字符分割困难,并且可以识别未知单词,与现有方法相比具有相对较小的模型大小和优秀的性能表现。
Sep, 2017
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符,同时提供基准结果使用 AlexNet,OverFeat,Google Inception 和 ResNet 进行字符识别,使用 YOLOv2 进行字符检测。
Feb, 2018
介绍了一种新的自然图像中文本检测方法,它包括使用合成图像训练 Fully-Convolutional Regression Network (FCRN) 以高效执行所有位置和多个尺度的文本检测和边框回归,并且可以在 GPU 上处理 15 张图像 / 秒。
Apr, 2016
本文提出了一种新颖的神经网络架构,将特征提取、序列建模和转录集成到统一框架中,用于场景文本识别,相比现有算法其具有端到端训练,不需要一定的词典限制,更加适合实际应用等优点,在标准测试数据上展现出更好的性能。
Jul, 2015
通过一种名为 VTNet 的新型条件扩散方法,本文研究了从源语言(如英语)到目标语言(如中文)的 “视觉” 场景文本翻译任务,通过生成保留文本视觉特征,如字体、大小和背景的翻译图像来解决文字识别和翻译的挑战,并通过全面的实验和与相关方法的比较验证了 VTNet 的性能。
Aug, 2023
通过语义一致性合成、视觉显著性确定和自适应文本外观模型等三个创新设计,提出了一种新的图像合成技术,用于生成大量标注数据,以用于训练准确和稳健的场景文本检测和识别模型。五个公共数据集的实验证明了该技术在训练精确和稳健的场景文本检测和识别模型方面的卓越性能。
Jul, 2018
本文提出了一种基于弱监督学习的场景文本生成方法,通过跨语言生成,将场景文本图片的内容和样式特征分离,并引入整合式注意力模块和预先训练的字体分类器以保证生成图片的完整内容结构以及填补不同语言文本风格之间的差距,实验结果显示,该方法显著提高了场景文本识别精度。
Jun, 2023
本文填补了中文文本识别领域的数据集缺失和统一的评测标准,提出了搜集四大类中文文本数据集的方法,为各类应用场景提供基准,并探究了基于偏旁部首的辅助方法对中文识别性能的提升。
Dec, 2021