该研究提出通过训练简单的循环神经网络从原文本字符序列中直接学习文本表示,并将这些文本嵌入用作监督字符级别文本分段和标记任务的特征,以实现比表面字符 n-gram 更好的结果。
Sep, 2013
利用偏旁部首进行汉字向量嵌入,研发了一种具有专门神经网络结构的方法,在中文字符相似度判别和中文词分割等任务上,该方法通过整合汉字中的偏旁部首信息,实现了较好的效果。
Apr, 2014
本文提出了一种新颖的神经网络框架,利用门控组合神经网络和LSTM语言评分模型,消除上下文窗口,可以利用完整的分词历史,产生分布式表示,从而实现中文分词,并在基准数据集上进行实验,结果不需要使用现有方法的特征工程,获得了与现有最先进方法相当甚至更好的性能。
Jun, 2016
本文介绍了一种新型神经模型,通过在有向无环图上使用长短时记忆网络来整合单词级别信息,结合预训练的字符或单词嵌入向量,实现了比基准模型更好的中文分词表现。
Jul, 2017
本文提出了基于卷积神经网络的、能够自动获取丰富n-gram特征的中文分词模型,并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题,经过在PKU和MSR两个基准数据集的实验,该模型在两个数据集上均表现出有竞争力的性能。
Nov, 2017
本文研究了一种基于格子结构的LSTM模型用于汉语命名实体识别,在编码一系列输入字符的同时,还编码与词典匹配的所有潜在词。与基于字符的方法相比,我们的模型明确利用了单词和单词序列信息。与基于单词的方法相比,格内LSTM不受分割错误的影响。门控循环单元允许我们的模型从句子中选择最相关的字符和单词以达到更好的命名实体识别结果。各种数据集上的实验表明了格内LSTM优于基于单词和字符的LSTM基线,取得了最佳结果。
May, 2018
本篇论文提出一种采用多种字符嵌入的共享Bi-LSTM-CRF模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在AS和CityU语料库中取得了96.9和97.3的最优F1得分。
Aug, 2018
本文研究了一种基于格子结构的长短时记忆网络,通过与词典匹配子序列信息实现对中文分词的支持,并通过对比 Word Encoding 和 Subword Encoding 两种编码方式表明 Subword Encoding 更具优势。结果表明本文提出的模型在四个分词基准测试中表现出与先前最先进的方法相当甚至更好的结果,并对其表现和性能进行了深入分析。
Oct, 2018
提出一种新颖的基于片段级别的文本分割框架,通过LSTM技术构建短语表示,并利用循环神经网络模型迭代确定段落最左侧的片段。实验证明,在3个数据集上,该方法在句法分块和中文词性标注方面取得了显著优于先前最佳模型的表现,并在建模长期依赖方面具有有效性。
Apr, 2021
本文介绍了一种基于偏旁部首的汉字表示方法,并使用多任务学习和监督训练来提高该方法在中文场景文本识别上的性能, 实现了在六个中文数据集上的优异表现。
Oct, 2022