具有词典知识的神经网络中文分词

Jul, 2018

具有词典知识的神经网络中文分词

Neural Chinese Word Segmentation with Dictionary Knowledge

Junxin Liu, Fangzhao Wu, Chuhan Wu, Yongfeng Huang, Xing Xie

TL;DR本文探讨了优化中文分词的策略，两种基于神经网络的方法被提出，分别是基于伪标签数据的生成和基于多任务学习。实验结果验证了这些方法在缺乏标注数据时都能有效地提高性能。

Abstract

chinese word segmentation (CWS) is an important task for Chinese NLP. Recently, many neural network based methods have been proposed for CWS. However, these methods require a large number of labeled sentences for

chinese word segmentation neural network dictionary information multi-task learning performance improvement

发现论文，激发创造

神经网络中的中文分词：序列到序列翻译模型

提出了一种基于注意力机制编码解码框架的序列到序列的中文分词模型，拥有全局信息和多任务融合的能力，并在微博、北大和微软亚洲等数据集上取得了与最先进方法相当的竞争性能。

Nov, 2019

基于词典和未标注数据的神经网络中文分词

该论文提出了一种神经方法来进行中文分词，该方法可以利用词典和未标记的数据进行训练，结果表明该方法在多个基准数据集上的实验效果良好。

Apr, 2019

重新思考中文分词：一个已解决的任务吗？

本文评估了现有中文分词系统，提出了一种细粒度评估方法，并针对多准则学习提出了解决方案，为未来研究方向提供了参考。

Nov, 2020

中文分词：另一篇十年回顾（2007-2017）

本文章回顾了中文分词（CWS）在最近的十年（2007-2017）的发展，特别关注了已经渗透到自然语言处理（NLP）大多数领域中的深度学习技术。作者得出的基本观点是，与传统的监督式学习方法相比，基于神经网络的方法还未表现出更优秀的性能，最关键的挑战仍然在于平衡对词汇内（IV）和词汇外（OOV）单词的识别。然而，由于神经模型有捕捉自然语言基本结构的潜力，因此我们对未来的显着进展持乐观态度。

Jan, 2019

基于分段语言建模的汉语无监督神经分词

本文提出了基于分段的语言模型处理无监督中文分词的方法，并使用上下文编码器和分段解码器设计了神经模型，达到了与最新统计模型相当的性能。

Oct, 2018

异质图神经网络的中文分词

本文提出了一个名为 HGNSeg 的框架，它利用预训练语言模型和异构图神经网络充分利用多层次的外部信息以提高中文分词的性能，并在六个基准数据集上进行了实验，证明了我们的方法的有效性。尤其是在跨领域情况下，我们的方法还表现出很强的缓解词表外（OOV）问题的能力。

Jan, 2022

BERT 遇见中文分词

应用 BERT 模型对中文分词任务进行了探究，在标注不一致的情况下 BERT 模型可以稍稍提高性能，具有良好的特征提取能力，大模型通常具有更好的性能，可作为其他神经网络模型的优秀特征候选项，Softmax 表现可以不输 CRF。

Sep, 2019

使用词嵌入的卷积神经网络用于中文分词

本文提出了基于卷积神经网络的、能够自动获取丰富 n-gram 特征的中文分词模型，并结合词嵌入有效地解决了单个字不足以表示完整词汇信息的问题，经过在 PKU 和 MSR 两个基准数据集的实验，该模型在两个数据集上均表现出有竞争力的性能。

Nov, 2017

中文神经分词学习

本文提出了一种新颖的神经网络框架，利用门控组合神经网络和 LSTM 语言评分模型，消除上下文窗口，可以利用完整的分词历史，产生分布式表示，从而实现中文分词，并在基准数据集上进行实验，结果不需要使用现有方法的特征工程，获得了与现有最先进方法相当甚至更好的性能。

Jun, 2016

利用单词嵌入改善跨领域中文分词

本文提出了一种基于半监督学习的词嵌入方法，用于提高跨领域中文分词的性能，实验证明该方法在小样本领域中表现良好，可以优化分词结果，尤其是在分割具有特定领域名词实体的数据集时较为有效。

Mar, 2019