本文提出了一种新的远程监督方法来增加古代汉语分词和词性标注的数据,利用深度神经网络的记忆效应和少量已注释数据来重新标记句子,以解决远程监督中不可避免的错误和未标记的问题,取得了优异的分词效果。
Mar, 2023
本文提出一种针对中文社交媒体的命名实体识别模型 (UIcwsNN),通过利用词语切分的不确定性信息,实现对实体的识别,其使用了候选位置嵌入、位置选择性注意和自适应词卷积的三合一编码方式来获取合适的词层次表达,并在社交媒体语料库上得到了显著的性能提高。
Apr, 2020
本文探讨了优化中文分词的策略,两种基于神经网络的方法被提出,分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。
Jul, 2018
提出了一种名为 SpanSegTag 的神经模型,采用跨度标记跟踪每个中文单词和其分词标记的概率,利用相邻字符的左右边界表示的双交注意力机制学习字符的 n-gram 特征,在中文分词和词性标注方面显著优于以 BERT 或 ZEN 编码器为基础的现有技术。
Dec, 2021
本文提出了一个基于不确定性抽取辅助知识的中文命名实体识别框架 TURNER,该框架利用搜索引擎等通用知识资源代替特定领域的高质量词典,通过不确定性抽样方法选择难以判断的实体,再由知识融合模型对这些实体进行重新预测。实验表明,TURNER 在四个基准数据集上的表现优于现有的基于词典的方法,取得了新的最优成绩。
Feb, 2022
本文章回顾了中文分词(CWS)在最近的十年(2007-2017)的发展,特别关注了已经渗透到自然语言处理(NLP)大多数领域中的深度学习技术。作者得出的基本观点是,与传统的监督式学习方法相比,基于神经网络的方法还未表现出更优秀的性能,最关键的挑战仍然在于平衡对词汇内(IV)和词汇外(OOV)单词的识别。然而,由于神经模型有捕捉自然语言基本结构的潜力,因此我们对未来的显着进展持乐观态度。
Jan, 2019
应用 BERT 模型对中文分词任务进行了探究,在标注不一致的情况下 BERT 模型可以稍稍提高性能,具有良好的特征提取能力,大模型通常具有更好的性能,可作为其他神经网络模型的优秀特征候选项,Softmax 表现可以不输 CRF。
Sep, 2019
为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型,在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。
Mar, 2019
本文评估了现有中文分词系统,提出了一种细粒度评估方法,并针对多准则学习提出了解决方案,为未来研究方向提供了参考。
Nov, 2020
本篇论文提出一种采用多种字符嵌入的共享 Bi-LSTM-CRF 模型来进行中文分词,并在实验中证明此方法能够显著提高分词准确率,同时在 AS 和 CityU 语料库中取得了 96.9 和 97.3 的最优 F1 得分。
Aug, 2018