串行模式挖掘的子序列交错模型
本文介绍了一种针对序列数据的模式集挖掘方法,使用 MDL 原则编码序列数据,通过权重编码序列中的序列事件集以确定模式质量,通过两种算法进行模式挖掘,证明能够有效发现具有信息量的小模式集。
Feb, 2019
提出了基于多值决策图表示法的约束序列模式挖掘技术,可以适应多个项目属性和各种约束类型,包括一些非单调约束。通过开发一个基于 MDD 的前缀投影算法,可以将其应用性进行评估,并与典型的生成检查变体以及最先进的基于约束的序列模式挖掘算法进行性能比较,结果表明我们的方法在可伸缩性和效率方面与其他方法相当或优于其他方法。
Nov, 2018
本文通过最小描述长度 (MDL) 和两个度量标准来进行连续规则的压缩,提出了一种基于设计的连续规则编码方案的 MDL 压缩解决方案 ComSR。实验结果表明,该方法能够找到一组有效的、紧凑且有意义的连续规则,从而实现数据库的压缩,为降低存储空间和传输时间提供了有效的数据挖掘方法。
Dec, 2022
本文研究了数据挖掘中的基础问题 Sequential Pattern Mining,并提出了基于 Trie-based 模型的数据集建模和挖掘算法,大幅提高了算法在时间和内存上的效率。实验结果表明我们的算法在实践中更快且更节省内存。
Feb, 2022
本文研究了如何利用富有多变量的序列模式获得离散多元序列数据的简明描述,并通过最小描述长度原则提出了一种高效的算法 DITTO,能够快速而准确地发现数据的高质量模式,从而提供了一个易于理解的数据总结。
Dec, 2015
由于科学技术的迅速发展,不确定、嘈杂和不确定数据的重要性以指数速度增加。因此,挖掘不确定数据库中的模式引起了研究人员的关注。此外,需要发现这些数据库中的频繁项目序列以获得具有重大影响的有意义知识。因此,在挖掘序列模式时需要处理权重的约束。然而,这些算法仅限于挖掘精确的模式。因此,我们在这项工作中开发了一种在不确定数据库中挖掘频繁序列的算法,并提出了两种新的增量挖掘技术。我们进行了大量的实验以评估性能,并分析显示了我们提出的框架的效率。
Mar, 2024
本文提出一种新的序列模式挖掘问题,建议使用新的策略剪枝搜索空间,以识别模式的基本特征和之间的相互关系,并通过在真实和合成数据上的实验证明了该方法的有用性。
Jan, 2022
本研究提出了 Safe Pattern Pruning (SPP) 用于解决预测模式挖掘中模式数量爆炸的问题,并演示了该方法在涉及集合,图和序列的回归和分类问题中的有效性。
Jun, 2023