ACLMay, 2020

2kenize: 中文转换中绑定次字序列

TL;DR本文提出了一种基于子词分割,两种语言模型以及子词序列映射方法的模型,能够在中文自然语言处理中对简体和繁体中文实现准确的转换,能够有效地解决语种混合和命名实体问题,并在主题分类和脚本转换的基准数据集上取得了 6% 的准确度提升。