- 研究说话人分谱的置信度估计方法
研究论文通过对扬声器判别系统的分析,探讨了生成对下游系统有竞争力且能够在置信度得分最低的部分区间内隔离约 30% 扬声器判别错误的多种方法。
- 基于置信度的持续疾病分类任务预测与概率分布
深度学习模型在识别医学影像疾病分类方面被广泛认可,然而在动态和不断变化的临床环境中,持续学习的需求变得尤为重要,以适应不断涌入的来自不同来源的医学数据,并确保医疗数据的隐私。在本研究中,我们强调利用由专家分类器组成的网络,每次引入新任务时添 - 基于大型多模态模型的病理报告标准化与置信度及其预后意义
使用大型多模型自动从病理报告图片中提取信息,并生成标准化报告,其中包括不同字段的数值及其准确性的置信度。提取的字段值在病理报告中具有重要的预后价值,可用于患者分层。
- 在 PyLaia 开源库中使用语言模型提升自动文本识别
PyLaia 是最受欢迎的开源自动文本识别(ATR)软件之一,最近改进包括可靠的置信度评分和解码过程中统计语言建模的整合,结果显示使用小型语言模型进行解码平均会将词错误率提高 13% 和字符错误率提高 12%。
- 从卵石取珠:自动标记的改进置信度函数
使用阈值自动标记和最优置信度函数来提高自动标记系统的性能。方法 Colander 在基线模型的标签覆盖率上实现了高达 60% 的改进,并且保持自动标记错误率低于 5%,使用与基线相同数量的标记数据。
- LLMs 的置信度评分多重校准
通过使用 “多校准” 技术,本文提出为大型语言模型生成可解释和可靠的置信度分数。通过在各种数据交叉组合上同时校准,可以显著提高校准和准确性。
- 利用大型语言模型驾驭不确定性感知的图处理
我们介绍了一种新颖方法,利用大型语言模型(LLM)结合不确定性感知模块,提供生成答案的置信度评分,从而在图处理中实现高准确性和解释性。我们在两个图处理任务上的实验证明,通过参数高效微调,LLM 在十个不同的基准数据集上胜过最先进的算法。此外 - 用样本一致性校准大型语言模型
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型 (LLM) 预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同 LLMs 特性的合适一致性度量标准的实用 - 从分组损失角度重建 LLMs
大型语言模型 (LLMs),包括 ChatGPT 和 LLaMA,在以自信的口吻生成虚构答案方面容易出错。本文通过构建来自知识库的新评估数据集,评估了 Mistral 和 LLaMA 给出的答案的置信度分数,并展示它们倾向于过于自信。我们还 - 校准攻击:一种面向校准的对抗攻击框架
我们引入了一种名为校准攻击的对抗攻击框架,该框架通过生成和组织攻击来使受害模型误校准而不改变其原始准确性,从而严重危及模型的可信性和基于其置信度分数的决策。我们鉴别了四种新颖的校准攻击形式:低置信度攻击、高置信度攻击、最大误校准攻击和随机置 - 促进人工智能与人类互动中适当信任的系统性综述
这篇论文通过系统综述研究了人工智能系统中适当信任的建立、度量方式、使用的任务类型以及相关挑战,并提出了一种基于信仰、意图和行为的映射方法,总结了当前趋势、潜在差距和未来工作的研究机会,以推进我们对适当信任的复杂概念在人工智能交互中的理解。
- ASR 和情感语音:语音和情感识别相互影响的单词级调查
研究利用自动语音识别系统分析情感语音,以及在转录情感语音时出现的错误,探讨自动语音识别对情感语音的适应性,进而促进情感语音的实际应用。
- 语义解析中的置信度权衡
本文研究定制模型如何通过使用置信度得分,在任务导向的解析中权衡成本与标注者的负担,压缩不正确的低置信程序的执行数量,以优化可用性与安全性之间的权衡,并提出了 DidYouMean 系统来更好地平衡可用性与安全性。
- 超越校准:估算现代神经网络的分组损失
本文研究了分类器给出可靠置信度分数的能力,在分组损失的影响下,提出了适用于标准设置下的分组损失估计器,利用该估计器证明了现代神经网络在计算机视觉和自然语言处理中存在分组损失
- EMNLP基于能量学习的领域外意图检测中的置信分数分布分解
本文提出了一种简单而强大的基于能量的得分函数来检测超领域或未知意图的方法,同时介绍了一种基于能量的边界目标来区分超领域与内部领域,并通过全面的实验和分析证明了该方法有助于解开内部领域和超领域数据的置信度得分分布。
- 利用 softmax 信息对于外部数据进行选择性分类的扩充
本研究针对在深度学习中的视觉识别任务中所出现的 out-of-distribution (OOD) 数据进行了检测,提出了一种基于 softmax 信息保留组合(SIRC)的分类方法,在不影响对 in-distribution 数据(ID) - IJCAI使用反事实解释模型置信度提升模型理解和信任
本文阐述了反事实解释信心分数是如何帮助用户更好地理解和更好地信任 AI 模型的预测,在人机交互系统中展示信心分数可以帮助建立人类和 AI 系统之间的信任,提出了两种用于理解模型信心的方法:(1) 基于反事实例;和 (2) 基于反事实空间的可 - ICML利用逻辑归一化缓解神经网络过度自信
本文提出 Logit Normalization 方法,通过约束神经网络输出的 logits 向量的范数,以减少 out-of-distribution 数据的高置信度问题,并在常见基准测试中取得高度可分辨的置信度分数。
- EMNLPRED-ACE: 使用置信度嵌入的 ASR 鲁棒性错误检测
该研究提出了一种基于自动语音识别 (ASR) 系统的置信得分,改善 ASR 误差检测 (AED) 模型的性能,并证明了这种置信得分的补充作用以及 ASR Confidence Embedding 的有效性和鲁棒性,并发布了一个包含有标记的 - 置信度阈值神经潜水
使用基于神经深潜的后处理方法提高启发式的灵活性,并通过置信得分确定最优解的一部分解,以找到更好、更快的可行解。该方法在 NeurIPS 2021 ML4CO 竞赛中获得了第二名,且在同类基于学习的方法中获得了最佳成绩。