本文探讨了优化中文分词的策略,两种基于神经网络的方法被提出,分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。
Jul, 2018
本文章回顾了中文分词(CWS)在最近的十年(2007-2017)的发展,特别关注了已经渗透到自然语言处理(NLP)大多数领域中的深度学习技术。作者得出的基本观点是,与传统的监督式学习方法相比,基于神经网络的方法还未表现出更优秀的性能,最关键的挑战仍然在于平衡对词汇内(IV)和词汇外(OOV)单词的识别。然而,由于神经模型有捕捉自然语言基本结构的潜力,因此我们对未来的显着进展持乐观态度。
Jan, 2019
提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型,拥有全局信息和多任务融合的能力,并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。
Nov, 2019
应用 BERT 模型对中文分词任务进行了探究,在标注不一致的情况下 BERT 模型可以稍稍提高性能,具有良好的特征提取能力,大模型通常具有更好的性能,可作为其他神经网络模型的优秀特征候选项,Softmax 表现可以不输 CRF。
Sep, 2019
本文提出了一种基于半监督学习的词嵌入方法,用于提高跨领域中文分词的性能,实验证明该方法在小样本领域中表现良好,可以优化分词结果,尤其是在分割具有特定领域名词实体的数据集时较为有效。
Mar, 2019
为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型,在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。
本文研究了训练在多样化语料库上的单一联合模型,并提出了一种新颖的设计,使得该模型在中文分词任务上达到了最新的高性能表现。
Dec, 2017
本文提出了一个名为 HGNSeg 的框架,它利用预训练语言模型和异构图神经网络充分利用多层次的外部信息以提高中文分词的性能,并在六个基准数据集上进行了实验,证明了我们的方法的有效性。尤其是在跨领域情况下,我们的方法还表现出很强的缓解词表外(OOV)问题的能力。
Jan, 2022
本文提出了基于分段的语言模型处理无监督中文分词的方法,并使用上下文编码器和分段解码器设计了神经模型,达到了与最新统计模型相当的性能。
Oct, 2018
探讨了是否需要将中文文本分词为词语的问题,并对基于分词和不基于分词的神经网络模型在四个自然语言处理任务上进行了比较。研究发现,不基于分词的字符级模型在数据稀疏性和词汇量不足等复杂情况下更加鲁棒。
May, 2019