中文神经分词学习
本研究提出了一种贪心神经分词器,利用平衡的词和字符嵌入输入来增强现有模型的计算效率,并能在中文基准数据集上以非常高的速度和更高的准确率执行分词,从而实现真正的端到端分词。
Apr, 2017
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017
本文提出了基于卷积神经网络的、能够自动获取丰富n-gram特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在PKU和MSR两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
本文针对中文分词问题,提出了一种基于间隔的直接分割字符序列的框架,并使用深度卷积神经网络——ResNets和DenseNets,在五个基准测试中超过了最佳的基于字符和基于词的方法。
Dec, 2017
本篇论文提出一种采用多种字符嵌入的共享Bi-LSTM-CRF模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在AS和CityU语料库中取得了96.9和97.3的最优F1得分。
Aug, 2018
在中文分词任务中,与更复杂的神经网络模型相比,双向LSTM模型结合标准深度学习技术和最佳实践能够在许多流行数据集上实现更好的精度。此外,错误分析表明,对于神经网络模型而言,词汇外的单词仍然具有挑战性,其余错误不太可能通过架构更改来修复,而是应该更加努力地探索资源以进一步提高精度。
Aug, 2018
探讨了是否需要将中文文本分词为词语的问题,并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现,不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。
May, 2019
提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型,拥有全局信息和多任务融合的能力,并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。
Nov, 2019