本文通过最小描述长度 (MDL) 和两个度量标准来进行连续规则的压缩,提出了一种基于设计的连续规则编码方案的 MDL 压缩解决方案 ComSR。实验结果表明,该方法能够找到一组有效的、紧凑且有意义的连续规则,从而实现数据库的压缩,为降低存储空间和传输时间提供了有效的数据挖掘方法。
Dec, 2022
提出了一个基于快速 CM-SPAM 算法的通用框架 TaSPM,旨在解决有目标序列的顺序模式挖掘问题,并通过设计四种修剪策略提高其在大规模数据集和多项基序列数据集上的效率。大量实验证明,TaSPM 算法可以实现更快的运行时间和更少的内存消耗。
Feb, 2022
本文提出了两种新算法 TotalSR 和 TotalSR+,用于发现所有高效用的有序序列规则。实验结果证明,TotalSR 相对于具有较少剪枝策略的算法显着更高效,TotalSR + 相对于 TotalSR 在运行时间和可伸缩性方面显着更高效。
Sep, 2022
该研究提出了一种称作相关高效序列规则挖掘器(CoUSR)的新算法,它融合了关联性概念到高效序列规则挖掘器(HUSRM)中,采用效用列表结构来避免多次数据库扫描,并使用多个修剪策略来提高算法效率和性能。实验结果表明,CoUSR 在计算时间和内存消耗方面是有效和高效的。
Oct, 2022
本文深入调查和提供了当前并行顺序模式挖掘的现状,包括传统串行 SPM 方法的详细分类,以及最先进的并行 SPM 方法。我们详细审查了并行顺序模式挖掘的相关工作,包括基于划分的算法,基于 Apriori 的方法,基于模式增长的 PSPM 和混合算法,并深入介绍了这些并行 PSPM 方法的特点、优势、缺点和总结。此外,我们还审查了一些著名的 PSPM 开源软件。最后,我们总结了大数据时代 PSPM 的一些挑战和机遇。
May, 2018
本文研究了数据挖掘中的基础问题 Sequential Pattern Mining,并提出了基于 Trie-based 模型的数据集建模和挖掘算法,大幅提高了算法在时间和内存上的效率。实验结果表明我们的算法在实践中更快且更节省内存。
我们提出了一个名为 UIRMiner 的算法,它可以从区间事件序列数据库中提取所有的效用驱动的区间规则(UIRs),并通过引入数值编码关系表示和补充剪枝策略来提高效率。
Sep, 2023
本文介绍了一种针对序列数据的模式集挖掘方法,使用 MDL 原则编码序列数据,通过权重编码序列中的序列事件集以确定模式质量,通过两种算法进行模式挖掘,证明能够有效发现具有信息量的小模式集。
Feb, 2019
本文提出了一种名为 THUIM 的新型基于列表的算法和匹配机制,以快速匹配挖掘过程中的高效用途项集,以选择目标模式,相对于已提出的算法,THUIM 在运行时间和内存消耗方面表现良好,并具有良好的可伸缩性。
Jun, 2022
本文通过进行系统化文献综述,提供了从 1996 年到 2022 年发表的 1140 篇学术论文的方法、算法、指标和数据集的深入研究,探讨了数字联想规则挖掘的重要研究问题、现状和未来可能性,并提出了一种新颖的离散化度量来提供与人类分区感知相符的数字数据分区。
Jul, 2023