Mar, 2015

克罗地亚文本中的非标准词归一化

TL;DR本文介绍了文本归一化的方法,包括使用基于规则和查找字典的方法,以及提出用于分类克罗地亚语非标准单词的整个分类法。效果显示,针对克罗地亚语的文本归一化的标记率为95%,其中80%的扩展单词以正确的形态呈现。