展现你的工作：调整曲线的置信区间

Nov, 2023

展现你的工作：调整曲线的置信区间

Show Your Work with Confidence: Confidence Bands for Tuning Curves

Nicholas Lourie, Kyunghyun Cho, He He

TL;DR给出了一种构建有效置信带的方法，这些置信带可以清楚地比较自然语言处理中不同方法的性能，并且具有准确性和稳健性。

Abstract

The choice of hyperparameters greatly impacts performance in natural language processing. Often, it is hard to tell if a method is better than another or just better tuned. tuning curves fix this ambiguity by acc

发现论文，激发创造

多类别和多标签预测中的有效和验证置信集

本文介绍一种基于分位数回归和树状结构分类器的符合性预测方法，可以有效解决多分类和多标签问题中难易样本分布不均匀、信心区间过大等挑战，且可以和任何分类模型结合使用并保证有效性。

Apr, 2020

测试误差的交叉验证置信区间

研究了交叉验证的中心极限定理和渐近方差一致估计，为 $k$ 折测试错误的可实现渐近精确置信区间和有效的假设测试提供了理论框架，并且在真实数据实验中表现优异。

Jul, 2020

提高信心，降低失望：用于稀疏回归的新跨验证方法

提出了一种通过引入置信度修正的变化来减少交叉验证过程中的过度期望风险，及从混合整数规划中获得可计算的放松，从而最小化leave-one-out误差的方法，能够比现有方法更快地得到更少误差的结果。

Jun, 2023

错配的两面：识别网络校准中的过度自信和不足自信预测

深度神经网络的适当置信度校准对于安全关键任务中的可靠预测至关重要。近期的研究强调了校准技术引入的置信度过高问题，并成功在各种任务上展示了其成果。然而，置信度过低问题尚未得到足够重视。本文首先引入了一种新的指标，即校准错误评分，用于识别整体和类别上的校准状态，包括置信度过高或过低。我们的指标揭示了现有校准技术存在的缺陷，它们往往过度校准模型，并加剧了置信度过低的预测问题。接着，我们利用类别上的校准错误评分作为代理设计了一种既能应对置信度过高又能应对置信度过低的校准技术。我们进行了大量实验证明我们提出的方法明显优于现有的校准技术。我们还通过风险覆盖曲线在自动故障检测任务上验证了我们的校准技术，结果表明我们的方法提高了故障检测的性能和模型的可信度。可在https://github.com/AoShuang92/miscalibration_TS找到代码。

Aug, 2023

当前估计器的可靠性和稳健性: 对LLMs的事实置信度

大型语言模型的事实准确性不可靠，为了解决这个问题，自然语言处理研究人员提出了一系列技术来估计模型对事实的置信度。然而，由于缺乏系统性的比较，不清楚不同方法之间的差异。为了填补这一空白，我们提出了一个调查和实证比较事实置信度估计器的实验框架，涵盖了事实验证和问题回答。我们的实验结果表明，训练的隐藏状态探针提供了最可靠的置信度估计，但需要权重和训练数据。我们还通过测量模型在输入的语义等效变化下的行为一致性来进行深入评估事实置信度。我们发现，大型语言模型的置信度在语义上等效的输入中往往不稳定，这表明改进模型参数化知识的稳定性有很大的改进空间。

Jun, 2024

基于深度学习的置信区间和同时置信带

深度学习模型在各个领域显著提高了预测准确性，并在许多学科中得到认可。然而，有一个深度学习方面仍未充分解决的问题是预测不确定性的评估。本研究提供了一种有效的非参数自助法，能够正确区分数据不确定性和所采用的优化算法中固有的噪音，确保生成的逐点置信区间或同时置信带是准确的（即有效且不过于保守）。该提议的方法可以轻松整合到任何深度神经网络中，而无需干扰训练过程。该方法的实用性通过为具有右删失的生存数据的深度神经网络构建同时置信带来进行了说明。

Jun, 2024

模型监测中基于置信度的预测性能估计器

研究机器学习模型在无法获取标签的情况下，如何通过模型置信度等新方法来估计其预测性能，探讨了这些方法的理论特性和相对质量。

Jul, 2024

哦，我再次取样了：重新诠释少样本学习中的置信区间

本研究针对现有少样本学习中采用有放回抽样计算置信区间（CI）的方法存在的误导性问题进行深入分析，指出该方法在考虑抽样随机性的同时未考虑数据的特性。通过比较分析，本研究提出使用成对检验部分解决该问题，并探索特定大小任务的战略性抽样，以进一步减小置信区间的大小，提供了新的优化基准。

Sep, 2024

哎呀，我又抽样了：在少样本学习中重新解读置信区间

本研究针对少样本学习中的置信区间计算方法存在的问题进行探讨。传统方法基于有替代抽样，导致置信区间的低估。我们提出使用配对检验来部分解决该问题，并探索通过战略性抽样进一步减少置信区间的大小，推动了对少样本学习中置信区间理解的深入。

Sep, 2024

构建“泛化误差”的置信区间——全面基准研究

本研究解决了在机器学习中评估预测模型质量时缺乏有效置信区间方法的问题。通过对13种不同方法的系统比较，该研究提出了一种统一框架，明确了各种组合的可靠性，并识别出推荐的方法。研究结果为后续相关研究提供了基础，并通过在OpenML上发布数据集和在GitHub上提供代码，促进了研究的开展。

Sep, 2024