使用两阶段建模进行带置信度的预测

Sep, 2022

使用两阶段建模进行带置信度的预测

Two-stage Modeling for Prediction with Confidence

Dangxing Chen

TL;DR本研究针对金融评级中的分布转移问题，提出了一种新的两阶段模型，利用分布检测方法将数据分成自信和不确定的集合，并结合平均方差优化方法，对不确定样本提供可靠的界限，实现了可靠的预测。

Abstract

The use of neural networks has been very successful in a wide variety of applications. However, it has recently been observed that it is difficult to generalize the performance of neural networks under the condit

neural networks distribution shift credit scoring out-of-distribution mean-variance optimization

发现论文，激发创造

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020

基于神经网络输出层分布的分类置信度估计

本文提出了一种基于 logit 值分布的神经网络分类模型的不确定性预测和置信水平估计方法，可用于知识提取过程中的预测筛选，并在关系提取、命名实体识别和图像分类等任务中获得显著的提高。

Oct, 2022

神经网络的错误分布检测中学习置信度

通过提出一种简单易实现、产生直观可解释输出的神经网络置信度学习方法，我们成功地实现了对神经网络预测错误的检测以及超出安全执行区域的检测，在该任务中表现优异，并在不需要额外标签或进入区别于正常数据集之外的样本的情况下超过了最近提出的指标构建方法。此外，我们还解决了置信度检测器校准问题，即我们证明被错误分类为正常数据集的正常样本是超出安全执行区域的样本的良好替代品。

Feb, 2018

深度稳健学习 - 针对外部分布泛化

本文主要研究基于深度神经网络的方法在训练数据与测试数据分布不一致时的性能问题，并通过学习训练样本的权重以消除特征之间的依赖关系，从而提高深度模型的性能。通过在多个分布泛化基准测试上的实验，与同类研究相比，我们的方法取得了很好的效果。

Apr, 2021

记忆分类器：机器学习中的鲁棒性双阶段分类

本研究提出了一种新的分类方法，称为 Memory Classifiers，通过结合高级数据结构和专家知识，识别出典型数据点，再在每个类别中学习细分特征的本地分类器，以提高机器学习模型的鲁棒性和泛化能力，实验证明，该方法可超越标准数据增强技术。

Jun, 2022

机器学习中的越界泛化

研究探讨了机器学习中的问题，特别是当模型在不同于训练数据的数据上进行测试时，模型很容易出现失败的现象，主要依靠发现数据的因果结构、找到可靠的特征并进行推广算法等方面展开探讨。

Mar, 2021

一种信息理论方法应对分布转换

从信息理论的角度，本文探讨了机器学习模型在实际应用中遭遇的数据偏移问题，比较了近期领域泛化与公正分类研究中一些最有前途的目标。根据我们的理论分析和实证评估，我们得出结论，模型选择过程需要根据观察到的数据、纠正因素和数据生成过程的结构进行认真考虑的指导。

Jun, 2021

在线准确性：关于样本内外泛化的强相关性

通过对 CIFAR-10、ImageNet、FMoW-WILDS 和 iWildCam-WILDS 等模型和数据集的实证研究，我们展示了机器学习系统在未知、分布不同的环境中表现的强相关性，并提供了基于高斯数据模型的理论解释。

Jul, 2021

评估数据集偏移下模型预测不确定性的可信度

以大量分类问题为基础，对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估，发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。

Jun, 2019

Shifts 2.0：扩展实际分布漂移数据集

本文扩展了 Shifts 数据集，加入了两个来源于高风险工业应用的数据集，用于探索模型的鲁棒性和不确定性估计。新数据集包括 3D 磁共振脑图像中白质多发性硬化病变的分割和船舶功耗的估计，具有普遍分布转移和严格的安全要求。

Jun, 2022