基准测试中文文本识别:数据集,基线和实证研究
本文提出了一种基于卷积神经网络的中文文本识别算法,并设计了一种合成数据引擎,用于生成代表性的中文场景字符图像来扩大数据集。通过对中文文本识别 CNN 架构进行修改,本算法在两个中文文本数据集上得到了更好的识别精度为基准方法。
Apr, 2016
RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.
Aug, 2017
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过30,000张街景图中的大约1百万个中文字符,同时提供基准结果使用AlexNet,OverFeat,Google Inception和ResNet进行字符识别,使用YOLOv2进行字符检测。
Feb, 2018
该研究提出了一个大规模的文本阅读基准数据集,名为Chinese Street View Text(C-SVT),可用于评估深度学习模型的性能。同时,介绍了使用弱标注数据的部分监督学习框架进行文本识别的方法。基于该框架,提出了一种在线提议匹配模块和一种共享参数的定位算法,以提高模型的端到端识别表现,并在ICDAR 2017-RCTW数据集中取得了最新的结果。
Sep, 2019
提出一种基于分割的方法以识别手写中文文本,使用简单而有效的完全卷积网络实现。使用一种新颖的弱监督学习方法,只需使用交录注释即可训练网络;无需先前分割方法所需的昂贵字符分割标注。因为完全卷积网络缺乏上下文建模,所以提出了一种上下文规则化方法将上下文信息纳入训练,进一步提高了识别性能。在四个广泛使用的基准测试上进行了广泛实验,即CASIA-HWDB,CASIA-OLHWDB,ICDAR2013和SCUT-HCCDoc,结果表明我们的方法在在线和离线HCTR上都显著优于现有方法,并且比CTC / 基于注意力的方法具有更高的推断速度。
Jul, 2022
我们提出了一个受人类认知中文文本方式启发的两阶段框架,通过对齐印刷字符图像和表意描述序列(IDS)来预训练一个类似CLIP的模型,从而改进传统的单字符识别到文本行识别,并在两种基准测试中证明了该方法的有效性,特别是在零样本中文字符识别方面表现出色。
Sep, 2023
我们提出了EvalWeb,一种从嘈杂的网络数据中提取中文干净文本的完整工具链,用于帮助大型语言模型的研究。使用这种方法,我们发布了最大和最新的大规模高质量中文网络文本ChineseWebText,其中包含1.42 TB的文本,并为每个文本分配了一个质量评分,从而方便LLM研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过90%的600 GB中文数据的更清洁子集。
Nov, 2023
通过构建一个中文文本到表格的数据集 CT-Eval,并利用该数据集评估开源和闭源的大型语言模型(包括 GPT-4)的性能,研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距,但经过微调后,开源的大型语言模型的文本到表格能力可以显著提高,超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力,还可作为极大提升大型语言模型文本到表格性能的宝贵资源。
May, 2024
本文构建了一个综合的中英文双语标杆来评估主流的AI生成文本检测器,并将LLM文本生成划分为创建、更新、删除、重写和翻译五个不同的操作,为各种场景提供优化AI生成文本检测器的关键洞察和改进方向。
Jun, 2024