Apr, 2024

最大熵编码的异常检测

TL;DR使用默认分布和一组测试数据,本文探讨了是否可能由 P 生成 x^M。为离散分布问题,Kolmogorov-Martin-Löf 随机性提供了明确答案。我们试图将这个概念推广到连续分布,并考虑了一组统计量 T_1 (x^M),T_2 (x^M),...。我们将每个统计量与其最大熵分布以及相应的通用源编码器关联起来,然后将最大熵分布组合以得到总码长,并与 - logP (x^M) 进行比较。我们展示了这种方法满足一些理论性质。对于真实世界的数据,通常 P 是未知的。我们使用双向生成网络将数据转换为潜在空间中的标准分布,并在那里使用最大熵编码。我们将所得方法与其他使用生成型神经网络检测异常值的方法进行了比较,在大多数情况下,我们的结果表现更好。