基于部首先验的自然场景中的汉字识别
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过30,000张街景图中的大约1百万个中文字符,同时提供基准结果使用AlexNet,OverFeat,Google Inception和ResNet进行字符识别,使用YOLOv2进行字符检测。
Feb, 2018
本文提出了基于偏旁部首的低维特征嵌入方法,配合LSTM模型用于古代汉语文本的句子分割,实验结果表明,相较于已有方法,在汉文句子分割上取得了更好的效果,尤其是唐代碑文的处理。
Oct, 2018
本文填补了中文文本识别领域的数据集缺失和统一的评测标准,提出了搜集四大类中文文本数据集的方法,为各类应用场景提供基准,并探究了基于偏旁部首的辅助方法对中文识别性能的提升。
Dec, 2021
本篇论文提出了一种名为StrokeNet的新型汉字表示方法,它通过拉丁化的笔划序列为汉字表示,解决了学习瓶颈和参数瓶颈问题,可应用于神经机器翻译中,有效提高翻译性能并减少模型参数。
Nov, 2022
构建一个包含基本水平和字符水平注释的古代汉字图像数据集,并提出一种基于字符分解和重组的零样本光学字符识别基准模型,实验证明了数据集和基准模型的有效性。
Aug, 2023
我们提出了一个受人类认知中文文本方式启发的两阶段框架,通过对齐印刷字符图像和表意描述序列(IDS)来预训练一个类似CLIP的模型,从而改进传统的单字符识别到文本行识别,并在两种基准测试中证明了该方法的有效性,特别是在零样本中文字符识别方面表现出色。
Sep, 2023
我们介绍了一个包含60亿个图像-文本配对的双语(中英文)数据集BM-6B,通过提出一种新颖的分组聚合方法来处理此规模的数据集,大大减少了通信开销和GPU内存需求,从而提高了训练速度,我们预训练了一系列双语图像-文本基础模型,并在BM-6B上取得了提升视觉和文本理解能力的成果,这些模型在多模态检索和分类任务方面树立了新的基准,并且我们的最大模型在零样本分类设置下,在ImageNet上的top-1准确率分别超过了以前报道的SoTA方法2.2%和21.1%。
Jan, 2024
本研究探讨了当代大型语言模型(LLMs)和视觉语言模型(VLMs)在汉字中识别和利用偏旁等视觉信息的能力,填补了这一领域的研究空白。通过建立基准,我们发现模型在理解汉字的视觉元素方面存在一定知识,但仍然有限,并且在将偏旁信息融入提示时,模型在词性标注任务中的表现显著提升,显示了整合子字符信息的潜力。
Oct, 2024