Feb, 2019

tax2vec: 从分类法中构建可解释特性,用于短文本分类

TL;DR本文探讨了利用词汇分类学构建新的语义特征来提高文本分类任务精度和鲁棒性的方法,提出了一种基于分类学的特征构建并行算法 tax2vec,在性别、人格类型、年龄、新闻主题、药品副作用和药效预测等 6 个短文本分类问题上表现出与基于层次注意力神经网络等强基线方法相当的分类性能,同时在少量样本的学习情况下也表现出卓越的性能。算法能够提取特定于语料库的语义关键词,并且语义特征与著名的 Zipf 定律具有相似性。