Apr, 2024

轻量级概念词典学习在文本分类中的应用

TL;DR我们提出了一种新颖的轻量级监督字典学习框架,用于基于数据压缩和表示的文本分类。该算法通过 LZW 算法从文本数据集构建字典,优化字典元素并考虑标签数据,生成区分性数值表示,以便训练 SVM 和神经网络等简单分类器。我们通过信息瓶颈原理进行信息理论性能评估,并引入信息平面区域排名为新的度量指标。在六个基准文本数据集上的测试中,我们的算法与顶级模型表现接近,尤其在有限词汇环境下,使用显著少的参数。然而,在多样词汇数据集上表现不佳,可能是由于 LZW 算法在低重复数据上的限制。这个对比突出了它在不同数据集类型上的效率和局限性。