Matrix Profile XXVII:一种新的长时间序列比较距离度量
测量时间序列数据之间的距离或相似性是许多应用的基本方面,包括分类和聚类。我们的目标是开发一种可以查找相似时间点附近发生的相似趋势,并且对应用领域的研究人员易于解释的度量。我们提出了一种新颖的度量方法 DTW+S,它创建了一个可解释的时间序列 “接近保持” 矩阵表示,每一列代表局部趋势,然后应用动态时间规整来计算这些矩阵之间的距离。我们提供了支持该表示选择的理论分析。我们证明了 DTW+S 在集成构建和流行病曲线聚类中的实用性。此外,我们还证明了相对于动态时间规整在某类数据集上的分类效果更好,特别是当局部趋势而非尺度起决定性作用时。
Sep, 2023
提出了一种新的基于相似度的分类器 Proximity Forest 2.0,它通过采用包括计算上更高效的计算相似度方法、新的弹性相似度度量 ADTW 以及成本函数调优等多种技术,将 UCR 测试集上的表现超过以往同类型分类器,并在某些需要相似度方法处理的测试集上,甚至超过了其他各类方法。
Apr, 2023
本文通过广泛的实验研究,比较了不同的时间序列数据表示法和相似度度量方法的有效性,对现有的成果进行了统一的验证,并揭示了文献中某些主张可能过于乐观的情况。
Dec, 2010
一种高度比较,基于特征的时间序列分类方法,利用广泛的算法数据库从时间序列中提取数千个可解释的特征,并采用贪心前向特征选择与线性分类器选择最具信息的特征进行分类,实现了对时序列的降维并超越了传统的基于实例的分类器。
Jan, 2014
对比了时间序列数据分析领域中层次分类(HC)和扁平分类(FC)方法的绩效,探究了不同数据集和分类器条件下,基于几种不同的相异度度量方式(JSD,TSD 和 CBD), 采用了 MINIROCKET,STSF 和 SVM 分类器,发现当采用 TSD 相异度度量和 MINIROCKET 分类器时,HC 与 FC 相比表现出明显的优势;而当采用 STSF 和 SVM 这样的替代分类器时,FC 表现出持续的优势;此外,发现 TSD 在几乎所有情况下表现出色,但 CBD 在涉及 STSF 分类器的情况下表现优异,这凸显了不同相异度度量的复杂性,并强调根据所用数据集和分类器选择的重要性。研究结果对于理解分类方法和相异度度量在时间序列数据分析领域中的效果提供了有价值的见解,并为优化不同分析场景中的性能提供了基础,强调了继续研究时间序列数据分析中驱动分类性能的潜在机制的必要性,对提升各领域的预测建模和决策制定有着重要的意义。
Feb, 2024
本文提出了一种新的距离测量方法,通过学习特征空间的潜在全局转换和时序对齐,以及不同维度间的差异来计算多元时间序列之间的距离,为机器学习等领域提供了新的思路。
Feb, 2020
本文提出了一种基于 Hilbert-Schmidt 独立准则(HSIC)的新内核共现测量方式,称为 pointwise HSIC(PHSIC),可用于稀疏语言表达(例如句子),并且学习时间非常短,是点间互信息(PMI)的替代方法,并且在对话响应选择任务中,PHSIC 比基于 RNN 的 PMI 快几千倍的学习速度,同时准确性也更好。
Sep, 2018