ICLRDec, 2014

基于 N-gram 的文本低维度表示方法用于文档分类

TL;DR本文提出了一种使用 n-grams 的 BOW 模型,通过调用 Skip-gram 模型快速获得单词向量表示并将其平均以获得 n-grams 的表征,从而在低维度空间中为所有 n-grams 维护了相同的语义信息,使用 K-means 聚类将语义概念分组以大大减少特征数量,最终展示了在情感分类任务中胜过 LSA 和 LDA,与传统的 BOW 模型相比,具有更少的特征但类似的结果。