MMAug, 2014

基于非标准词的文本分类特征

TL;DR本文介绍了使用非标准单词 (非标准单词包括数字、日期、缩写、货币等)作为特征来进行分析克罗地亚语文本的分类。实验结果表明,使用非标准单词频率作为特征的分类准确率最高为 87%。此外,作者认为在高度变形的语言中,应该考虑使用基于非标准单词的功能来降低特征空间的维度,而无需使用标准分类过程。