- 基于最近邻的高效自然语言处理任务不确定性估计
深度神经网络中的可信预测对于现实世界中的安全关键应用至关重要。本研究提出了 $k$ 最近邻不确定性估计方法,通过邻居之间的距离和邻居的标签存在比例来提高置信度和预测效果,并在情感分析、自然语言推理和命名实体识别方面表现出色。
- 利用自反论辩教授 LLM 学生表达自信
使用先进的 SaySelf 训练框架,通过自动总结知识不确定性以及分析不一致性,教导大语言模型表达更准确的细粒度置信度评估,并通过强化学习和奖励机制校准置信度估计,降低校准错误并保持任务性能。
- IJCAIVCC-INFUSE: 半监督学习中准确高效的未标记样本选择
我们提出了两种方法:Variational Confidence Calibration (VCC) 和 Influence-Function-based Unlabeled Sample Elimination (INFUSE),VCC - 基于能量模型的经过校准的置信度伪标签学习
基于能量模型 (EBM) 的基于能量的半监督伪标签算法 (EBPL) 在网络训练期间通过共享特征提取部分来学习类别决策边界和输入数据分布,从而提高可信度校准,在半监督图像分类任务中优于现有的伪标签方法,具有更好的可信度校准误差和识别准确率。
- 多标签类别增量学习的置信度自校准
本文提出了一种 Confidence Self-Calibration (CSC) 方法,通过引入类增量图卷积网络进行标签关系校准,并通过最大熵正则化实现每个多标签增量的置信度自校准,从而在 MS-COCO 和 PASCAL VOC 数据集 - 仅使用生成进行大型语言模型的校准
利用 APRICOT 方法,通过模型的文本输入和输出,设置置信度目标并训练附加模型,从而有效地进行大语言模型的置信度校准。该方法不仅概念简单,而且不需要访问目标模型的其他信息,不会干扰语言生成,并且在封闭型问答中以检测错误答案方面具有竞争性 - Fact-and-Reflection (FaR) 提高大型语言模型的置信度校准
通过探索不同的提示策略对 LLM 的置信度校准的影响以及如何改进,本文提出了 Fact-and-Reflection(FaR)提示法,它通过两个步骤改善 LLM 的校准,同时大幅降低了预期校准误差,并在更自信的场景中还能引发检索增强来解决更 - $C^3$: 用于推理高效的跨语言自然语言理解的置信度校准模型级联
本研究引入了一种置信度校准的模型级联方法($C^3$),通过在级联推断之前进行校准,提高了级联的准确性,实验证明 $C^3$ 明显优于所有现有的基线模型。
- SAE:单体架结合神经网络
通过单个神经网络中的早期退出和多输入多输出框架,将分散的神经网络集成为一个单一的体系结构集合,提高准确度和置信度校准,并减少运算和参数量。
- 视觉语言模型的开放词汇校准
通过调整温度值,根据预测文本标签与基本类之间的距离,我们提出了一种名为距离感知校准(DAC)的简单有效方法,来解决视觉语言模型中存在的置信度校准问题。在 11 个不同的下游数据集上对 7 种不同的提示学习方法进行的实验验证了 DAC 的有效 - 置信度校准对符合性预测是否有帮助?
该研究论文研究了适用于高概率包含真实标签的预测集的不确定性量化技术 - 保形预测。通过实验证明,使用事后校准方法和较小的温度得到的预测集有改进校准,而事后校准方法和较大的温度得到的预测集有改进保形预测性能。论文提出了一种新的 $ extbf - EMNLP关于大型语言模型和对齐的校准
通过对大型语言模型的可靠性进行置信度校准的系统检查,我们评估了在预训练和对齐训练阶段中不同训练设置(如参数尺度和训练数据)对模型校准的影响,并对生成、真实性和理解等方面进行了全面的评估。
- MSE-Nets:用于提高具有模糊边界的医学图像分割的多注解半监督集成网络
使用有限的多注释和丰富的无注释数据,我们提出了一种多注释半监督集成网络(MSE-Nets),用于医学图像分割任务,通过多种方法增强模型,优化可利用的注释数据,减少重复注释的需求,并提高模型在医学图像分割中的性能。
- ChatGPT 提示无法估计高资源语言的预测不确定性
ChatGPT 通过在高资源语言中表现和预测答案准确性的能力进行分析,发现高资源语言表现与英语相似,但 ChatGPT 缺乏良好的置信度校准,常常过于自信且不会给出低置信度值。
- 迈向经过校准的鲁棒视觉语言模型微调
就细调技术在预训练模型的潜力释放和模型在分布偏移中的鲁棒性之间存在权衡关系,研究提出了一种校准鲁棒微调(CaRot)方法,以在内部数据和外部数据集上提高预训练视觉 - 语言模型(VLMs)的校准性和鲁棒性。验证结果证明了该方法的有效性。
- 错配的两面:识别网络校准中的过度自信和不足自信预测
深度神经网络的适当置信度校准对于安全关键任务中的可靠预测至关重要。近期的研究强调了校准技术引入的置信度过高问题,并成功在各种任务上展示了其成果。然而,置信度过低问题尚未得到足够重视。本文首先引入了一种新的指标,即校准错误评分,用于识别整体和 - 基于激光雷达的语义分割中不确定性估计的校准
我们提出了一种测量语义分割模型对各个类别的置信度校准质量的度量标准,并使用该标准评估不平衡类别的不确定性估计方法的置信度校准情况。此外,我们还建议该方法可以自动发现标签问题,改善手工或自动注释数据集的质量。
- 通过帕累托最优自我监督实现大型语言模型的自动校准和误差修正
本文提出了一种 Pareto 最优的自我监督框架,该框架可以利用可用的程序监督来系统地校准 LLM 响应,为每个响应产生风险分数,从而不需要进行任何额外的人工努力。
- 概率分类器上的 Shapley 值
本文提出了一种概率 Shapley 值(P-Shapley),通过构建一个基于概率分类器的类概率效用函数来量化每个数据点对概率分类器的边际贡献,并提供几种置信度校准的激活函数,从而实现评估数据重要性以构建高可用性和可信赖性 ML 模型的目的 - 深度神经网络的近邻校准
研究表明,机器学习模型的置信度校准常常忽略距离偏差问题,即在低接近度数据(即分布稀疏的区域)上比在高接近度样本上更容易过度自信,进而导致不一致的误校准。基于此,该研究提出了一种名为 ProCal 的插件式算法,具有调整样本置信度的理论保障。