本文提出了基于偏旁部首的低维特征嵌入方法,配合 LSTM 模型用于古代汉语文本的句子分割,实验结果表明,相较于已有方法,在汉文句子分割上取得了更好的效果,尤其是唐代碑文的处理。
Oct, 2018
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
该论文旨在改善神经机器翻译系统的词汇表外 (未知) 单词的翻译水平,特别是针对神经机器翻译系统用于中文翻译的方法,并且通过引入汉字偏旁部首信息进行语义分析。实验结果表明,所提出的模型在包括 LEPOR、BEER 和 CHARACTER 在内的多种评估指标上均优于基线模型。
May, 2018
利用字符图像重建网络(CIRN)对纵向中文文本进行识别,通过分离内容和方向信息,提高自然场景中横向和纵向文本的识别性能。
Sep, 2023
本篇论文提出一种运用中文字符字形并覆盖了一些语义信息的 CNN 模型进行命名实体识别,该模型取得了比使用传统特征的模型更好的成果,提升了命名实体识别的效率。
Sep, 2019
该研究提出了一种新的基于 DeepRAN 的方法,可以分析汉字的基本部首和二维结构,从而实现对未知字符的识别。
Aug, 2018
构建一个包含基本水平和字符水平注释的古代汉字图像数据集,并提出一种基于字符分解和重组的零样本光学字符识别基准模型,实验证明了数据集和基准模型的有效性。
Aug, 2023
本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。
介绍一个街景图中的大规模中文文本数据集,该数据集包含超过 30,000 张街景图中的大约 1 百万个中文字符,同时提供基准结果使用 AlexNet,OverFeat,Google Inception 和 ResNet 进行字符识别,使用 YOLOv2 进行字符检测。
Feb, 2018
提出 Moto 模型以融合汉字的语义信息,包括偏旁部首、拼音码和五笔码以提高中文文本分类性能。通过对四项任务的广泛实验,该模型在中文新闻标题,复旦语料库和清华新闻上实现显著改善,F1 得分最高可达 0.8316,词性标注任务的准确率可达 96.38%,文本分类任务的准确率可达 0.9633。
Dec, 2022