基于部首先验的自然场景中的汉字识别

Oct, 2022

基于部首先验的自然场景中的汉字识别

Reading Chinese in Natural Scenes with a Bag-of-Radicals Prior

Liu Yongbin, Liu Qingjie, Chen Jiaxin, Wang Yunhong

TL;DR本文介绍了一种基于偏旁部首的汉字表示方法，并使用多任务学习和监督训练来提高该方法在中文场景文本识别上的性能，实现了在六个中文数据集上的优异表现。

Abstract

scene text recognition (STR) on Latin datasets has been extensively studied in recent years, and state-of-the-art (SOTA) models often reach high accuracy. However, the performance on non-Latin transcripts, such as chine

发现论文，激发创造

基于部首增强的汉字嵌入

利用偏旁部首进行汉字向量嵌入，研发了一种具有专门神经网络结构的方法，在中文字符相似度判别和中文词分割等任务上，该方法通过整合汉字中的偏旁部首信息，实现了较好的效果。

Apr, 2014

自然场景下的中文识别

介绍一个街景图中的大规模中文文本数据集，该数据集包含超过30,000张街景图中的大约1百万个中文字符，同时提供基准结果使用AlexNet，OverFeat，Google Inception和ResNet进行字符识别，使用YOLOv2进行字符检测。

Feb, 2018

基于LSTM和部首嵌入的古汉语句子分割

本文提出了基于偏旁部首的低维特征嵌入方法，配合LSTM模型用于古代汉语文本的句子分割，实验结果表明，相较于已有方法，在汉文句子分割上取得了更好的效果，尤其是唐代碑文的处理。

Oct, 2018

基准测试中文文本识别：数据集，基线和实证研究

本文填补了中文文本识别领域的数据集缺失和统一的评测标准，提出了搜集四大类中文文本数据集的方法，为各类应用场景提供基准，并探究了基于偏旁部首的辅助方法对中文识别性能的提升。

Dec, 2021

解决中文字符表示瓶颈问题：基于笔画序列建模的神经机器翻译

本篇论文提出了一种名为StrokeNet的新型汉字表示方法，它通过拉丁化的笔划序列为汉字表示，解决了学习瓶颈和参数瓶颈问题，可应用于神经机器翻译中，有效提高翻译性能并减少模型参数。

Nov, 2022

面向零样本字符识别的黄金标准数据集及基于部首级别的标注

构建一个包含基本水平和字符水平注释的古代汉字图像数据集，并提出一种基于字符分解和重组的零样本光学字符识别基准模型，实验证明了数据集和基准模型的有效性。

Aug, 2023

场景图像中的无方向中文文本识别

利用字符图像重建网络（CIRN）对纵向中文文本进行识别，通过分离内容和方向信息，提高自然场景中横向和纵向文本的识别性能。

Sep, 2023

使用经过预训练的类CLIP模型通过图像ID同步的中文文本识别

我们提出了一个受人类认知中文文本方式启发的两阶段框架，通过对齐印刷字符图像和表意描述序列（IDS）来预训练一个类似CLIP的模型，从而改进传统的单字符识别到文本行识别，并在两种基准测试中证明了该方法的有效性，特别是在零样本中文字符识别方面表现出色。

Sep, 2023

M^2-Encoder: 大规模高效预训练推动双语图像-文本理解

我们介绍了一个包含60亿个图像-文本配对的双语（中英文）数据集BM-6B，通过提出一种新颖的分组聚合方法来处理此规模的数据集，大大减少了通信开销和GPU内存需求，从而提高了训练速度，我们预训练了一系列双语图像-文本基础模型，并在BM-6B上取得了提升视觉和文本理解能力的成果，这些模型在多模态检索和分类任务方面树立了新的基准，并且我们的最大模型在零样本分类设置下，在ImageNet上的top-1准确率分别超过了以前报道的SoTA方法2.2%和21.1%。

Jan, 2024

汉字视觉信息的影响：评估大型模型识别和利用偏旁的能力

本研究探讨了当代大型语言模型（LLMs）和视觉语言模型（VLMs）在汉字中识别和利用偏旁等视觉信息的能力，填补了这一领域的研究空白。通过建立基准，我们发现模型在理解汉字的视觉元素方面存在一定知识，但仍然有限，并且在将偏旁信息融入提示时，模型在词性标注任务中的表现显著提升，显示了整合子字符信息的潜力。

Oct, 2024