Jan, 2019

中文分词:另一篇十年回顾(2007-2017)

TL;DR本文章回顾了中文分词(CWS)在最近的十年(2007-2017)的发展,特别关注了已经渗透到自然语言处理(NLP)大多数领域中的深度学习技术。作者得出的基本观点是,与传统的监督式学习方法相比,基于神经网络的方法还未表现出更优秀的性能,最关键的挑战仍然在于平衡对词汇内(IV)和词汇外(OOV)单词的识别。然而,由于神经模型有捕捉自然语言基本结构的潜力,因此我们对未来的显着进展持乐观态度。