May, 2017

词嵌入的几何形状是否有助于文档分类?基于持久性同调的表示的案例研究

TL;DR本研究探索了利用代数拓扑方法进行文本数据分析的相关性。我们评估了这些基于拓扑学的文档表示法在传统的NLP任务中,特别是文档聚类和情感分类方面的效用,并发现这些嵌入不利于文本分析,性能比简单的技术(如tf-idf)还要差,这表明所选择的数据集中文档的几何形状不足以提供足够的差异,无法用于基于主题或情感的分类。