Aug, 2017

中、英、日、韓語文本分類中最佳編碼方式為何?

TL;DR本文针对中日韩和英语言的文本分类,研究了不同编码方式,包括 UTF-8 字节、字符、词、罗马化字符和罗马化词,对线性模型、fastText 和卷积神经网络进行了比较,对卷积神经网络的编码机制进行了研究,使用了包括字符字形图像、one-hot 编码和嵌入在内的不同编码机制,总共使用了 473 个模型,并使用包括中英日韩四种语言的 14 个大型文本分类数据集。结果表明,基于 UTF-8 的字节级 one-hot 编码一致表现出色,词级 n-gram 的线性模型即使没有完美的词分割也能表现出色,而 fastText 提供了最佳结果,但当特征过于丰富时容易出现过拟合。