低熵潜变量损害了越界性能

ICLRMay, 2023

Low-Entropy Latent Variables Hurt Out-of-Distribution Performance

Nandi Schoots, Dylan Cope

TL;DR本研究讨论中间表示的熵和模型对分布变化的鲁棒性之间的关系，证实去除低熵比特可以显著提高模型在分布变化方面的表现，但去除高熵比特会不利于模型表现。

Abstract

We study the relationship between the entropy of intermediate representations and a model's robustness to distributional shift. We train m

entropy robustness distributional shift contrastive learning out-of-distribution

发现论文，激发创造

分布式神经网络中熵模型的弹性

通过实验证明，熵攻击可以增加传输开销高达 95%，提出一个新的防御机制，可以将受攻击输入的传输开销减少约 9%，只有约 2% 的准确度损失，并提出该防御机制可以与对抗训练等方法结合使用以进一步提高鲁棒性。

Mar, 2024

深度学习压缩中的迁移能力鲁棒性

本文介绍了两种增强深度神经网络压缩系统鲁棒性的方法，采用分布鲁棒优化和结构化潜在代码进行训练，取得较传统深度神经网络压缩器更优的效果。

Oct, 2021

基于分类器头部信息的特征遮蔽和基于原型的对数平滑方法用于异常检测

提出了一种基于特征屏蔽和对数平滑的后处理 OOD 检测方法，通过减小 OOD 数据的特征激活和增加 ID 与 OOD 数据之间的差距，缓解了神经网络对 OOD 数据的过度自信性预测，并在多个标准 OOD 检测基准上证明了该方法的有效性和兼容性，取得了新的最先进性能。

Oct, 2023

基于最优输运的条件分布熵检测异常样本

通过建立优化方程，利用训练样本和测试输入的几何信息，提出了一种无需依赖分布假设、先验知识和特定训练机制的新型距离方法，用于在存在测试输入的情况下，有效利用分布信息来判断样本是否为来自分布之外的样本，并在基准数据集上展开的大量实验证明了该方法在区分来自分布之外样本上的性能优越性。

Jan, 2024

释放掩码：探索内在的外部分布检测能力

本文提出了一种新的方法 ——Unleashing Mask，该方法使用掩模找出受记忆的非典型样本，并通过微调或修剪模型来忘记它们，从而恢复所训练模型的 OOD 鉴别能力。

Jun, 2023

基于假设驱动的深度学习进行外部分布检测

我们提出了一种基于假设的方法来确定新样本是属于训练集范围内还是超出范围，在黑盒系统中，通过深度神经网络 (DNN) 计算超出范围 (Out-of-Distribution, OoD) 的隐含回应，并将 OoD 检测问题形式化为不同组的隐含回应之间的假设检验。我们将这种方法应用于一个训练好的深度学习模型，用以检测未知的细菌样本，并展示了其在 InD 和 OoD 隐含回应之间揭示了可解释的差异。该方法对于系统性的新颖性检测和基于子标签训练的分类器的明智决策具有重要意义。

Mar, 2024

过参数化对于超出分布之外的普适性的益处

研究了过参数化模型在 Out-of-Distribution 问题下的性能，发现模型容量的增加和模型集成有助于提高 OOD 推广能力。

Mar, 2024

理解生成式 Transformer 模型在 OOD 泛化中的神秘性能下降

基于生成 Transformer 模型在解决各种问题方面取得了显著的熟练度，但其泛化能力尚未被完全理解并且不始终令人满意。研究人员将 n 位数加法或乘法等基本数学任务作为调查其泛化行为的重要角度。然而，有趣的是，当在 n 位数操作（例如加法）上进行训练时，模型在未见过的 n 位数输入上可以成功泛化（分布内泛化），但在更长的、未见过的情况下却失败且神秘（分布外泛化）。研究试图通过修改位置嵌入、微调和引导更广泛或更有指导性的数据等解决方案来弥合这一差距。然而，如果不解决基本机制，对于这些解决方案的鲁棒性几乎没有任何保证。我们引起人们对这种无法解释的性能下降的注意，并询问它是否纯粹是由于随机错误。在这里，我们转向机制研究的线路，这在模型可解释性方面取得了显著的成功。我们发现强 ID 泛化源于结构化表示，而在令人不满意的 OOD 性能方面，模型仍然展现出明确的学习代数结构。具体而言，这些模型将未见过的 OOD 输入映射到具有 ID 域等价关系的输出。这凸显了模型携带有用信息以改善泛化的潜力。

Aug, 2023

语义分割中的 OOD 检测的熵最大化和元分类

本研究提出了一种改进基于像素 softmax 熵的方法的两步流程，通过引入第二个训练目标，最大化对不同数据集的 softmax 熵，并利用手工创造的 Metric 从 softmax 概率得出透明的后处理步骤来降低误检率，从而提高深度神经网络的 OoD 检测性能。

Dec, 2020

层级 VAE 知道它们不知道的

深度生成模型的密度估计已被证明是最先进的，但最近的研究发现，它们通常会分配更高的似然性给训练分布之外的数据，此行为是由于偏差所致，本文通过分层变分自编码器提供了证据来解释这种行为，我们认为这是预期和期望的行为，掌握这一洞见后，我们设计了一种快速、可扩展且完全无监督的似然比分数用于 ODD 检测，并在大量数据和模型组合上进行了基准测试，获得了最佳实验结果。

Feb, 2021