基于有向无环图的长短时记忆网络用于语言分词
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和LSTM语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本研究提出了一种贪心神经分词器,利用平衡的词和字符嵌入输入来增强现有模型的计算效率,并能在中文基准数据集上以非常高的速度和更高的准确率执行分词,从而实现真正的端到端分词。
Apr, 2017
本文介绍了一种基于Long Short-Term Memory(LSTM)神经网络的日文分词方法,该方法考虑了日文中的汉字、平假名和片假名等正字体的变异及其难度,同时考虑了全局语境因素,实验结果表明该方法在实现不同日语语料库上达到了最先进的准确性。
Sep, 2017
本文提出了基于卷积神经网络的、能够自动获取丰富n-gram特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在PKU和MSR两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
本文针对中文分词问题,提出了一种基于间隔的直接分割字符序列的框架,并使用深度卷积神经网络——ResNets和DenseNets,在五个基准测试中超过了最佳的基于字符和基于词的方法。
Dec, 2017
本文研究了一种基于格子结构的长短时记忆网络,通过与词典匹配子序列信息实现对中文分词的支持,并通过对比 Word Encoding 和 Subword Encoding 两种编码方式表明 Subword Encoding 更具优势。结果表明本文提出的模型在四个分词基准测试中表现出与先前最先进的方法相当甚至更好的结果,并对其表现和性能进行了深入分析。
Oct, 2018
本文提出了一种灵活的多标准中文分词学习方法:Switch-LSTMs,它由几个长短时记忆神经网络(LSTM)和一个自动选择器组成,可以在多个子标准之间灵活切换,相比之前的方法和单一标准学习,该模型在八个具有不同标准的语料库上取得了显著的改进。
Dec, 2018
探讨了是否需要将中文文本分词为词语的问题,并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现,不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。
May, 2019