最大熵编码的异常检测

Apr, 2024

Out-of-Distribution Detection using Maximum Entropy Coding

Mojtaba Abolfazli, Mohammad Zaeri Amirani, Anders Høst-Madsen, June Zhang, Andras Bratincsak

TL;DR使用默认分布和一组测试数据，本文探讨了是否可能由 P 生成 x^M。为离散分布问题，Kolmogorov-Martin-Löf 随机性提供了明确答案。我们试图将这个概念推广到连续分布，并考虑了一组统计量 T_1 (x^M),T_2 (x^M),...。我们将每个统计量与其最大熵分布以及相应的通用源编码器关联起来，然后将最大熵分布组合以得到总码长，并与 - logP (x^M) 进行比较。我们展示了这种方法满足一些理论性质。对于真实世界的数据，通常 P 是未知的。我们使用双向生成网络将数据转换为潜在空间中的标准分布，并在那里使用最大熵编码。我们将所得方法与其他使用生成型神经网络检测异常值的方法进行了比较，在大多数情况下，我们的结果表现更好。

Abstract

Given a default distribution $P$ and a set of test data $x^M=\{x_1,x_2,\ldots,x_M\}$ this paper seeks to answer the question if it was likely that $x^M$ was generated by $P$. For discrete distributions, the definitive answer is in principle given by Kolmogorov-Martin-L\"{o}f randomness

default distribution kolmogorov-martin-löf randomness statistics maximum entropy distribution generative neural networks

发现论文，激发创造

自适应熵估计

本研究针对离散分布 P 进行 n 个独立同分布样本的香农熵估计，使用逼近理论法进行估计，实现了在估计熵的最小二乘率方面的极致。通过采用自适应估计框架，该方法相对极小值优化估计方法在分布 P 的嵌套子序列上实现了最小二乘率的估计，从而进一步证明了估计在样本 n 的情况下是最优的，并且基本上相当于 MLE 使用 nlnn 个样本进行估计。

Feb, 2015

基于最优输运的条件分布熵检测异常样本

通过建立优化方程，利用训练样本和测试输入的几何信息，提出了一种无需依赖分布假设、先验知识和特定训练机制的新型距离方法，用于在存在测试输入的情况下，有效利用分布信息来判断样本是否为来自分布之外的样本，并在基准数据集上展开的大量实验证明了该方法在区分来自分布之外样本上的性能优越性。

Jan, 2024

魔术师：基于样本的最大熵源分布估计

我们提出了一种用于推断科学模拟器参数的唯一源分布的方法，并尽可能保留更多的不确定性。

Feb, 2024

熵、优化与计数

研究计算基于观测边际的离散对象的最大熵分布的问题，研究表明在一般条件下存在着多项式大小的描述，给出了一些关于近似计算和计数最大熵分布的算法，并且阐明了计算最大熵分布和计算数量之间的等价性。

Apr, 2013

不确定最大熵原理

介绍不确定最大熵法，将黑盒机器学习模型的输出作为输入，使其能够使用噪声观测，同时提高预测精度。

May, 2023

广义最大熵估计

本文提出了一个基于凸规划对偶性的新的近似方案，使用平滑的快速梯度方法来估计最大化熵的概率分布，同时满足一定数量的被噪声污染的时刻约束，进一步阐述了如何通过该方案来近似化学主方程和解决具有无穷状态和动作空间的约束马尔可夫决策过程的问题。

Aug, 2017

最大熵编码的自监督学习

本研究利用 Maximum Entropy Coding 算法优化表征模型，消除表征偏差，提高模型泛化性能并在多项下游任务上取得最先进的性能表现，证明了该算法可以学习可迁移的自我表征模型。

Oct, 2022

离散分布函数的最大似然功能估计

针对离散分布函数的函数估计问题，利用浓度不等式和正线性算子逼近理论分析了 MLE 估计器的最坏情况的平方误差风险及其期望偏差。研究表明，MLE 在估计香农熵和 F_α(P) 产生了次优的样本复杂度，且 Dirichlet 先验平滑技术不能达到最小化极值。

Jun, 2014

最大权重熵

使用贝叶斯和集成方法，在深度学习中处理不确定性量化和跨分布检测问题，通过最大熵原则来解决预测多样性不足的问题，提出了一种权重参数化的方法，通过奇异值分解来增加权重熵以实现更有效的算法。

Sep, 2023

基于熵的失真测量的多终端源编码

本文通过特定的、基于熵的失真度量，研究了一类多终端源编码问题，并提供了两种情形下的可行码率失真区域，同时证明了我们的特定失真度量和（1）经典的 Slepian-Wolf 无损分布式源编码网络以及（2）仅恢复一个源的 Ahlswede-Körner-Wyner 编码中的源编码与辅助信息问题之间存在关系。

May, 2011