本文提出了一种新颖的神经网络框架,利用门控组合神经网络和 LSTM 语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本文提出了基于卷积神经网络的、能够自动获取丰富 n-gram 特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在 PKU 和 MSR 两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
本研究利用最佳实践将低资源神经机器翻译应用于受监督的中文分词,实现低成本的模型设计并取得与其他方法相同的最新成果。
Aug, 2020
本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。
Aug, 2018
本文提出了基于分段的语言模型处理无监督中文分词的方法,并使用上下文编码器和分段解码器设计了神经模型,达到了与最新统计模型相当的性能。
Oct, 2018
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017
本文探讨了优化中文分词的策略,两种基于神经网络的方法被提出,分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。
Jul, 2018
本文提出了用于中文分词和词性标注任务的特征丰富的神经模型,使用卷积和池化层模拟传统离散特征模型的特征模板,并结合循环层使用长距离依赖信息。实验结果表明,该模型的效果显著。
Nov, 2016
为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型,在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。
Mar, 2019
提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型,拥有全局信息和多任务融合的能力,并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。
Nov, 2019