通过线上协议预测基础模型的性能

Apr, 2024

通过线上协议预测基础模型的性能

Predicting the Performance of Foundation Models via Agreement-on-the-Line

Aman Mehra, Rahul Saxena, Taeyoun Kim, Christina Baek, Zico Kolter...

TL;DR通过构建多样性的集合，我们可以利用基于线上一致性的方法以高精度预测基础模型的 OOD 性能。

Abstract

Estimating the out-of-distribution performance in regimes where labels are scarce is critical to safely deploy foundation models. Recently, it was shown that ensembles of neural networks observe the phenomena ``<

out-of-distribution performance ensembles of neural networks agreement-on-the-line finetuned foundation models ood performance

发现论文，激发创造

在变化分布下预测神经网络的性能

本文研究了神经网络分类器之间的一致性现象以及其与准确性的线性关系，提出了一种只利用无标签数据进行 ODA 预测的算法，并探讨了这种现象对于深度神经网络的新见解。

Jun, 2022

基于基础模型的医学图像分割的域外鲁棒性

构建一个强健的模型，能够在分布转变的情况下有效地泛化到测试样本，在医学影像领域仍然是一个重要的挑战。本研究通过对基于自然图像和文本数据进行预训练的视觉和语言基础模型进行 fine-tuning 后的鲁棒性评估，证明了基于基础模型的优越性。此外，研究还开发了一种新的冻结模型的贝叶斯不确定性估计方法，并将其用作衡量模型在超出分布数据上性能的指标，对于实际应用具有显著的益处。实验不仅揭示了在自然图像应用中常用的线上准确性和线上一致性指标的局限性，还强调了引入贝叶斯不确定性的潜力，特别是低不确定性预测通常具有更高的超出分布性能。

Nov, 2023

错误数据上的准确度：关于嘈杂数据对于超出分布泛化的陷阱

通过研究机器学习中的 “在线准确性” 现象，我们发现噪声数据和干扰特征会破坏准确性与超参数和数据配置之间的正相关关系，导致准确性与超参数和数据配置之间出现负相关关系。这种现象也可能出现在含有假特征的情况下，假特征会凸显出复杂信号特征，导致大量干扰特征空间。此外，将数据扩展到更大规模并不能减轻这种不良行为，甚至可能加剧它。我们通过线性分类模型在真实和合成数据集上进行验证，并对噪声数据和干扰特征的条件下的 Out-of-distribution (OOD) 错误证明了下界。

Jun, 2024

利用重要神经元进行线外检测 (LINe)

提出了一种新的基于神经元分析的方法，Leveraging Important Neurons (LINe)，通过使用 Shapley 值剪枝和激活截断等方法实现后置 OOD 检测。在 CIFAR-10，CIFAR-100 和 ImageNet 测试数据上，该方法表现出比其他现有后置 OOD 检测方法更高的有效性。

Mar, 2023

可靠的不确定性与便宜的神经网络集成：工业零件分类的案例研究

本研究比较了单一神经网络、深度集合和三种高效神经网络集合的性能，结果表明批量集合是一种性价比高且与深度集合相比在不确定性和准确性方面表现更好的替代方案。

Mar, 2024

神经 NLP 模型外分布评估的调查

本综述论文比较了对神经自然语言处理模型的三种研究途径：对抗鲁棒性、领域泛化和数据集偏差，并总结了每条研究路径的数据生成过程和评估协议，并强调未来工作的挑战和机遇。

Jun, 2023

深度神经网络的可预测外推倾向

神经网络预测在面对越来越多的分布外数据时，往往呈现出不可预测和过度自信的特点。然而，我们的研究发现，与其任意拟合，神经网络预测往往趋向于一个恒定值，并且这个值通常接近于最优恒定解（OCS），即在没有观察到输入时最小化训练数据平均损失的预测。我们在 8 个包含不同分布转移的数据集（包括 CIFAR10-C 和 ImageNet-R,S）、不同损失函数（交叉熵、均方误差和高斯负对数似然）以及不同架构（CNN 和转换器）上展示了这种现象。此外，我们提出了这种行为的解释，首先通过实证研究验证，然后在简化的深度均质网络和 ReLU 激活的环境中进行理论研究。最后，我们展示了如何在面对分布外输入时利用我们的发现在实践中实现风险敏感的决策。

Oct, 2023

通过隐式层集成增强自然语言理解中的外部分布检测

该论文提出了一种基于对比学习的框架，旨在有效地进行 out-of-distribution 检测，利用预训练的语言模型吸收丰富的信息，并在意图分类和异常检测等数据集中取得了显著的效果。

Oct, 2022

梯度正则化的离群样本检测

利用损失函数的梯度信息进行训练，实现神经网络在离分布数据上的检测，并通过能量采样方法提高模型性能。

Apr, 2024

一种简单的测试时间方法用于识别非分布检测

本文提出了一种基于线性回归的测试时间训练方法，将输入图像的特征与其推断出的异常检测 (OOD) 分数进行配对，并在实现更精确的 OOD 检测上取得了很好的效果。

Jul, 2022