EMNLPJul, 2017

韩语语言处理的次字符架构

TL;DR本文提出一种新颖的子字符架构,利用韩语的独特组合结构将每个字符分解为一小组基本音韵单元,称为 “jamo 字母”,从而诱导字符和单词级别的表征。 jamo 字母透露出难以通过传统的字符级单元访问的句法和语义信息。它们显著缓解了数据稀疏性问题,在实验中减少了观察空间的原始空间的 1.6%,并在依赖解析中取得了显着的优化效果。