简洁有效：使用多元模式总结复杂事件序列

Dec, 2015

简洁有效：使用多元模式总结复杂事件序列

Keeping it Short and Simple: Summarising Complex Event Sequences with Multivariate Patterns

Roel Bertens, Jilles Vreeken, Arno Siebes

TL;DR本文研究了如何利用富有多变量的序列模式获得离散多元序列数据的简明描述，并通过最小描述长度原则提出了一种高效的算法 DITTO，能够快速而准确地发现数据的高质量模式，从而提供了一个易于理解的数据总结。

Abstract

We study how to obtain concise descriptions of discrete multivariate sequential data. In particular, how to do so in terms of rich multivariate sequential patterns that can capture potentially highly interesting (cor)relations between sequences. To this end we allow our pattern language

multivariate sequential data pattern language minimum description length principle ditto algorithm data summarization

发现论文，激发创造

长短参半：用序列事件摘要串行情节

本文介绍了一种针对序列数据的模式集挖掘方法，使用 MDL 原则编码序列数据，通过权重编码序列中的序列事件集以确定模式质量，通过两种算法进行模式挖掘，证明能够有效发现具有信息量的小模式集。

Feb, 2019

串行模式挖掘的子序列交错模型

本文提出一种基于概率模型的新型子序列交织模型，利用 MDL 原则定义了一种编码方案，能够高效地挖掘最相关的顺序模式，并使用相关的趣味性度量对其进行排序，同时使用结构化的期望最大化框架进行有效的推断。实验结果表明该模型挖掘出的模式具有低的错误率和冗余性，并具有实际应用中的高解释性和实用性。

Feb, 2016

事件序列的概述马尔可夫模型

本文提出了一种用于处理事件序列的概率模型 - 总结马尔可夫模型，通过选择合适的汇总功能函数，该模型的事件类型的发生概率仅依赖于其历史发生的事件类型的汇总，针对文本类数据进行了模型的构建和优化，通过实验检验模型的性能和发现能力。

May, 2022

时间到模式：面向可扩展时间序列概括的信息论非监督学习

时间序列汇总是从数据集中生成可解释和有代表性子集的过程。我们引入了一种名为 Time-to-Pattern (T2P) 的时间序列汇总方法，通过学习离散时间序列的信息嵌入，在解释性的潜在空间中找到一组多样性模式来编码最显著的信息，并在综合实验中展示了 T2P 相较之前的工作在模式多样性和处理可扩展性方面的显著改进。

Aug, 2023

代码概括模型学习所得的解析

本文首次给出了代码概括模型所发现的模式的形式化定义，并提出了一种推断正则语言文法的声学算法。 PATIC 对代码 2vec 和代码 2seq 进行了评估并发现提取出的模式受限于局部和语法代码结构并缺乏语义含义。基于这些发现，本文介绍了正式定义模式的两个新方法：评估健壮性和提高代码概括模型的准确性。

Mar, 2023

如何使用模式编写摘要？通过原型编辑学习走向抽象化摘要

本文提出了基于原型编辑方法的摘要生成器 (PESG) 来解决文本摘要中的两个主要问题：学习样本中的模式以及生成的摘要不包含与模式无关的内容，并通过大规模实验发现其可以在自动度量和人类评估方面取得最先进的性能。

Sep, 2019

考虑多次出现的频繁串事件增量挖掘

本文提出一种新的序列模式挖掘问题，建议使用新的策略剪枝搜索空间，以识别模式的基本特征和之间的相互关系，并通过在真实和合成数据上的实验证明了该方法的有用性。

Jan, 2022

综合的和抽象的摘要：基于行列式点过程的多样化注意力

本文通过引入一种称为微观 DPPs 和宏观 DPPs 的方法，提出了一个名为 DivCNN Seq2Seq 的 Diverse Convolutional Seq2Seq 模型，用于生成注重质量和多样性的 attention distribution，从而相比传统模型和强基线模型实现更高的综合性摘要生成。

Sep, 2019

改进用于监督视频摘要的序列行列式点过程

本文讲述了一种基于顺序行列式点过程（SeqDPP）的有监督视频摘要方法，该方法通过概率分布建模多样性。我们提出了一种大边际算法，以解决 SeqDPP 中的曝光偏差问题。同时，我们还设计了一种新的概率分布，当它被集成到 SeqDPP 中时，产生的模型可以接受用户输入期望的摘要长度。此外，我们还扩展了一个视频摘要数据集，并对该数据集进行了广泛的实验比较。

Jul, 2018

将统计显著性与区分能力整合于模式发现

将统计显著性和判别能力准则融入现有算法，同时保持模式质量，以引导模式发现，并通过三个案例研究证明其在发现具有显著改进的模式中的重要性。

Jan, 2024