BriefGPT.xyz
Sep, 2018
无分割组合$n$-gram嵌入
Segmentation-free compositional $n$-gram embedding
HTML
PDF
Geewook Kim, Kazuki Fukui, Hidetoshi Shimodaira
TL;DR
该研究提出了一种新型的表示学习方法,它无需依赖于词语分割和人工注释资源,能有效处理像中文和日文这样的非分割语言中的嘈杂语料库,方法的主要思想是彻底忽略词语边界,利用组合子n-gram的嵌入来构建原始语料库中所有字符n-gram的表示。
Abstract
Applying conventional word
embedding
models to
unsegmented languages
, where word boundary is not clear, requires
word segmentation
as prep
→