Feb, 2024

文档部分聚类:从文档中检测和描述影响运动

TL;DR我们提出了一种新颖的聚类流程来检测和表征文档中的影响力运动。该方法通过聚类文档的部分,检测反映影响力运动的聚类,并通过它们与高影响力聚类的关联识别与影响力运动相关的文档。我们的方法在预测文档是否属于影响力运动方面优于直接的基于文档级别的分类和聚类方法。我们提出了各种新技术来增强我们的流程,包括使用现有的事件真实性预测系统获取文档部分,并聚合多个聚类实验来改进聚类和文档分类的性能。在聚类的基础上对文档进行分类不仅可以精确提取与影响力运动相关的文档部分,而且将影响力运动作为一种协调和整体的现象来捕捉。我们的方法使得从文档中更细粒度、可解释性更强地表征影响力运动成为可能。