Sep, 2018

无分割组合$n$-gram嵌入

TL;DR该研究提出了一种新型的表示学习方法,它无需依赖于词语分割和人工注释资源,能有效处理像中文和日文这样的非分割语言中的嘈杂语料库,方法的主要思想是彻底忽略词语边界,利用组合子n-gram的嵌入来构建原始语料库中所有字符n-gram的表示。