Nov, 2023

文档的时间顺序

TL;DR我们概述了一种针对历史文件集的无监督方法,即《美国国情咨文演讲》和 DEEDS,这是一本中世纪英国土地转让文件的语料库。我们的方法通过非参数广义线性模型(Fan、Heckman 和 Wand,1995)的带宽估计有效捕捉词语使用的渐变变化。即使对于少量文档,所需搜索与带宽相关的可能成本函数的排名顺序数量可能非常大。我们使用模拟退火算法解决了这个组合优化问题,从而使我们能够获得最佳的文档时间顺序。与随机排序的基线相比,我们的排名方法显著改善了这两个语料库的时间排序。这种无监督方法应能够对未标记的文档集进行时间排序。