基准测试中文文本识别：数据集，基线和实证研究

Dec, 2021

基准测试中文文本识别：数据集，基线和实证研究

Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study

Jingye Chen, Haiyang Yu, Jianqi Ma, Mengnan Guan, Xixi Xu...

TL;DR本文填补了中文文本识别领域的数据集缺失和统一的评测标准，提出了搜集四大类中文文本数据集的方法，为各类应用场景提供基准，并探究了基于偏旁部首的辅助方法对中文识别性能的提升。

Abstract

The flourishing blossom of deep learning has witnessed the rapid development of text recognition in recent years. However, the existing text recognition methods are mainly for English texts, whereas ignoring the pivotal role of Chinese texts. As another widely-spoken language, chinese text re

发现论文，激发创造

基于CNN的带有合成数据引擎的场景中文文本识别算法

本文提出了一种基于卷积神经网络的中文文本识别算法，并设计了一种合成数据引擎，用于生成代表性的中文场景字符图像来扩大数据集。通过对中文文本识别 CNN 架构进行修改，本算法在两个中文文本数据集上得到了更好的识别精度为基准方法。

Apr, 2016

ICDAR2017野外中文文本阅读比赛（RCTW-17）

RCTW is a Chinese text reading competition featuring a large-scale dataset with 12,263 annotated images and two tasks, text localization and end-to-end recognition, which provides a research opportunity for Chinese text reading in natural images.

Aug, 2017

自然场景下的中文识别

介绍一个街景图中的大规模中文文本数据集，该数据集包含超过30,000张街景图中的大约1百万个中文字符，同时提供基准结果使用AlexNet，OverFeat，Google Inception和ResNet进行字符识别，使用YOLOv2进行字符检测。

Feb, 2018

基于部分监督学习的大规模中文街景文字阅读

该研究提出了一个大规模的文本阅读基准数据集，名为Chinese Street View Text（C-SVT），可用于评估深度学习模型的性能。同时，介绍了使用弱标注数据的部分监督学习框架进行文本识别的方法。基于该框架，提出了一种在线提议匹配模块和一种共享参数的定位算法，以提高模型的端到端识别表现，并在ICDAR 2017-RCTW数据集中取得了最新的结果。

Sep, 2019

手写汉字文本分割识别：一种无需分段注释的方法

提出一种基于分割的方法以识别手写中文文本，使用简单而有效的完全卷积网络实现。使用一种新颖的弱监督学习方法，只需使用交录注释即可训练网络；无需先前分割方法所需的昂贵字符分割标注。因为完全卷积网络缺乏上下文建模，所以提出了一种上下文规则化方法将上下文信息纳入训练，进一步提高了识别性能。在四个广泛使用的基准测试上进行了广泛实验，即CASIA-HWDB，CASIA-OLHWDB，ICDAR2013和SCUT-HCCDoc，结果表明我们的方法在在线和离线HCTR上都显著优于现有方法，并且比CTC / 基于注意力的方法具有更高的推断速度。

Jul, 2022

场景图像中的无方向中文文本识别

利用字符图像重建网络（CIRN）对纵向中文文本进行识别，通过分离内容和方向信息，提高自然场景中横向和纵向文本的识别性能。

Sep, 2023

使用经过预训练的类CLIP模型通过图像ID同步的中文文本识别

我们提出了一个受人类认知中文文本方式启发的两阶段框架，通过对齐印刷字符图像和表意描述序列（IDS）来预训练一个类似CLIP的模型，从而改进传统的单字符识别到文本行识别，并在两种基准测试中证明了该方法的有效性，特别是在零样本中文字符识别方面表现出色。

Sep, 2023

基于有效评估模型提取的大规模高质量中文网络文本

我们提出了EvalWeb，一种从嘈杂的网络数据中提取中文干净文本的完整工具链，用于帮助大型语言模型的研究。使用这种方法，我们发布了最大和最新的大规模高质量中文网络文本ChineseWebText，其中包含1.42 TB的文本，并为每个文本分配了一个质量评分，从而方便LLM研究人员根据所需质量阈值选择数据。我们还发布了一个质量超过90%的600 GB中文数据的更清洁子集。

Nov, 2023

CT-Eval: 大型语言模型中中国文本到表格性能的基准评估

通过构建一个中文文本到表格的数据集 CT-Eval，并利用该数据集评估开源和闭源的大型语言模型(包括 GPT-4)的性能，研究结果显示零翻译大型语言模型仍然与人类判断存在明显的性能差距，但经过微调后，开源的大型语言模型的文本到表格能力可以显著提高，超过了 GPT-4 很大的程度。这表明 CT-Eval 不仅可以帮助研究人员评估和快速了解现有大型语言模型的中文文本到表格能力，还可作为极大提升大型语言模型文本到表格性能的宝贵资源。

May, 2024

CUDRT：人类与大型语言模型生成文本的检测基准

本文构建了一个综合的中英文双语标杆来评估主流的AI生成文本检测器，并将LLM文本生成划分为创建、更新、删除、重写和翻译五个不同的操作，为各种场景提供优化AI生成文本检测器的关键洞察和改进方向。

Jun, 2024