自然场景下的中文识别
该研究提出了一个大规模的文本阅读基准数据集,名为 Chinese Street View Text(C-SVT),可用于评估深度学习模型的性能。同时,介绍了使用弱标注数据的部分监督学习框架进行文本识别的方法。基于该框架,提出了一种在线提议匹配模块和一种共享参数的定位算法,以提高模型的端到端识别表现,并在 ICDAR 2017-RCTW 数据集中取得了最新的结果。
Sep, 2019
ICDAR2019-ReCTS 竞赛的最终结果已经公布,比赛以街景中的中文招牌为研究对象,共设置了四个任务,评估时采用了多个真值的评估方法,旨在解决中文文本的模糊性问题。
Dec, 2019
本文介绍了 COCO-Text 数据集,该数据集基于 MS COCO 数据集,旨在推进自然图像的文本检测和识别。数据集中包含超过 173,000 个文本注释和超过 63,000 张图像,文本注释覆盖了文本的边界框、机器印刷文本和手写文本的分类、易读和难读文本的分类、文本的字体和可读文本的转录。本文还提供了数据集注释的准确性统计分析,并对三种最先进的光学字符识别方法在数据集上的表现进行了分析,结果表明文本检测和识别存在显著的不足,需要进一步研究。
Jan, 2016
本文填补了中文文本识别领域的数据集缺失和统一的评测标准,提出了搜集四大类中文文本数据集的方法,为各类应用场景提供基准,并探究了基于偏旁部首的辅助方法对中文识别性能的提升。
Dec, 2021
本文提出了一种基于卷积神经网络的中文文本识别算法,并设计了一种合成数据引擎,用于生成代表性的中文场景字符图像来扩大数据集。通过对中文文本识别 CNN 架构进行修改,本算法在两个中文文本数据集上得到了更好的识别精度为基准方法。
Apr, 2016
我们提出了一个受人类认知中文文本方式启发的两阶段框架,通过对齐印刷字符图像和表意描述序列(IDS)来预训练一个类似 CLIP 的模型,从而改进传统的单字符识别到文本行识别,并在两种基准测试中证明了该方法的有效性,特别是在零样本中文字符识别方面表现出色。
Sep, 2023
RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.
Aug, 2017
本文利用收集在 TextVQA 数据集的真实图像上的 900K 个文本单词,提出了任意形状的场景文本检测和识别系统 TextOCR,使用该系统训练的 OCR 模型 PixelM4C 在图像上进行场景文本推理,以达到新的 TextVQA 数据集上的最新性能水平。
May, 2021
本文研究基于深度学习的方法在离线手写中文文本识别领域的应用,使用只有卷积神经网络的模型和 CTC 损失函数实现,采用 Dropout 方法以防止过拟合,最终在 ICDAR 2013 竞赛数据集上实现了 6.81% 的字符错误率,为同等条件下最好的研究结果。
Jun, 2020
本文提出了 COCO-CN 数据集和推荐辅助集体注释系统,通过学习跨语言资源,完成了跨语言的图片标记、字幕和检索任务,为跨语言图像注释和检索领域做出了重要贡献。
May, 2018