简洁有效:使用多元模式总结复杂事件序列
本文介绍了一种针对序列数据的模式集挖掘方法,使用 MDL 原则编码序列数据,通过权重编码序列中的序列事件集以确定模式质量,通过两种算法进行模式挖掘,证明能够有效发现具有信息量的小模式集。
Feb, 2019
本文提出一种基于概率模型的新型子序列交织模型,利用 MDL 原则定义了一种编码方案,能够高效地挖掘最相关的顺序模式,并使用相关的趣味性度量对其进行排序,同时使用结构化的期望最大化框架进行有效的推断。实验结果表明该模型挖掘出的模式具有低的错误率和冗余性,并具有实际应用中的高解释性和实用性。
Feb, 2016
本文提出了一种用于处理事件序列的概率模型 - 总结马尔可夫模型,通过选择合适的汇总功能函数,该模型的事件类型的发生概率仅依赖于其历史发生的事件类型的汇总,针对文本类数据进行了模型的构建和优化,通过实验检验模型的性能和发现能力。
May, 2022
时间序列汇总是从数据集中生成可解释和有代表性子集的过程。我们引入了一种名为 Time-to-Pattern (T2P) 的时间序列汇总方法,通过学习离散时间序列的信息嵌入,在解释性的潜在空间中找到一组多样性模式来编码最显著的信息,并在综合实验中展示了 T2P 相较之前的工作在模式多样性和处理可扩展性方面的显著改进。
Aug, 2023
本文首次给出了代码概括模型所发现的模式的形式化定义,并提出了一种推断正则语言文法的声学算法。 PATIC 对代码 2vec 和代码 2seq 进行了评估并发现提取出的模式受限于局部和语法代码结构并缺乏语义含义。基于这些发现,本文介绍了正式定义模式的两个新方法:评估健壮性和提高代码概括模型的准确性。
Mar, 2023
本文提出了基于原型编辑方法的摘要生成器 (PESG) 来解决文本摘要中的两个主要问题:学习样本中的模式以及生成的摘要不包含与模式无关的内容,并通过大规模实验发现其可以在自动度量和人类评估方面取得最先进的性能。
Sep, 2019
本文提出一种新的序列模式挖掘问题,建议使用新的策略剪枝搜索空间,以识别模式的基本特征和之间的相互关系,并通过在真实和合成数据上的实验证明了该方法的有用性。
Jan, 2022
本文通过引入一种称为微观 DPPs 和宏观 DPPs 的方法,提出了一个名为 DivCNN Seq2Seq 的 Diverse Convolutional Seq2Seq 模型,用于生成注重质量和多样性的 attention distribution,从而相比传统模型和强基线模型实现更高的综合性摘要生成。
Sep, 2019
本文讲述了一种基于顺序行列式点过程(SeqDPP)的有监督视频摘要方法,该方法通过概率分布建模多样性。我们提出了一种大边际算法,以解决 SeqDPP 中的曝光偏差问题。同时,我们还设计了一种新的概率分布,当它被集成到 SeqDPP 中时,产生的模型可以接受用户输入期望的摘要长度。此外,我们还扩展了一个视频摘要数据集,并对该数据集进行了广泛的实验比较。
Jul, 2018