为适应不同注释标准而设计的基于 BERT 的多标准中文分词模型,在 10 个中文分词数据集上实现了比之前最先进的模型更高的效率和性能。
Mar, 2019
本文提出了一种灵活的多标准中文分词学习方法:Switch-LSTMs,它由几个长短时记忆神经网络 (LSTM) 和一个自动选择器组成,可以在多个子标准之间灵活切换,相比之前的方法和单一标准学习,该模型在八个具有不同标准的语料库上取得了显著的改进。
Dec, 2018
本文研究了训练在多样化语料库上的单一联合模型,并提出了一种新颖的设计,使得该模型在中文分词任务上达到了最新的高性能表现。
Dec, 2017
提出了一种基于 Transformer 编码器的多准则中文词分割 (MCCWS) 统一模型,该模型可对简体和繁体中文进行分割,并具有出色的迁移能力。在八个具有不同准则的数据集上进行实验,结果表明我们的模型优于单准则基线模型和其他多准则模型。
Jun, 2019
本文利用预训练 Bert 模型和 bigram 特征,提出了一个新的基于 Bert 的统一的 MCCWS 模型并加入了一个辅助分类任务,在 8 个具有不同标准的数据集上进行实验,并取得了新的最优结果。
Apr, 2020
本文探讨了优化中文分词的策略,两种基于神经网络的方法被提出,分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。
Jul, 2018
本文评估了现有中文分词系统,提出了一种细粒度评估方法,并针对多准则学习提出了解决方案,为未来研究方向提供了参考。
Nov, 2020
本文提出了一个名为 HGNSeg 的框架,它利用预训练语言模型和异构图神经网络充分利用多层次的外部信息以提高中文分词的性能,并在六个基准数据集上进行了实验,证明了我们的方法的有效性。尤其是在跨领域情况下,我们的方法还表现出很强的缓解词表外(OOV)问题的能力。
Jan, 2022
本文提出了一种基于半监督学习的词嵌入方法,用于提高跨领域中文分词的性能,实验证明该方法在小样本领域中表现良好,可以优化分词结果,尤其是在分割具有特定领域名词实体的数据集时较为有效。
本文提出了一种跨域中文分词的方法,使用远程注释和对抗训练来解决领域间的分布差异和词汇表外问题,实验结果表明该方法优于之前的领先的跨域中文分词方法。
Jul, 2020