预测概率的解释:模型置信度还是人工标签变异性?
本文主要讲述了自然语言处理中,对于语言结构的概率分布应当被直接评估,NLP 不确定性不只是管道组件,还应被投影到探索性数据分析中,我们提出了一种分析校准的方法,并将其应用于比较了几个常用模型的误校准情况; 此外,我们还贡献了一种共参采样算法,旨在创建政治事件抽取任务的置信区间。
Aug, 2015
本文提出了一种将人类和机器学习模型的输出结合起来的算法,使得人类的分类结果和模型的概率结果相互补充,同时考虑模型的置信度,通过在 CIFAR-10 和 ImageNet 数据集上的实验证明,这种人机结合模型能够比单独使用模型或人类结果在分类精度上取得更好的结果,并且只需要使用 10 个标注好的数据点即可准确估计模型参数。
Sep, 2021
提取存在负面贡献性的词语可以解释使用预训练语言模型预测不确定性,这是对于模型决策辅助的重要补充,实验证明这项技术在模型解释和人类理解模型预测行为方面不可或缺。
Jan, 2022
研究在从低资源语言中采样的数据集上训练模型的情况下,通过多种方法评估和分析神经分类器的预测置信度,发现尽管使用预训练模型和集成模型可以获得最佳结果,但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析,发现模型的总不确定性在很大程度上受到数据不确定性的影响,并提供了开源的软件包。
Oct, 2022
本篇论文提出了一种基于神经网络和新型 dropout - 熵测量方法的模型以及基于特征表示的度量学习方法,可以更精确地预测,提高分类器的预测准确性,尤其在医学诊断等需要确定不确定预测的领域有广泛的应用。
Jul, 2019
以大量分类问题为基础,对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估,发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。
Jun, 2019
该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示,发现目前 GPT-3 在预测标签分布方面仍有改进的空间
Apr, 2023
大型语言模型为了赢得人类的信任,需要具备良好的校准能力,准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响,发现默认解释会导致用户过高估计模型的信心和准确性,而更准确反映模型内部可信度的解释能够对用户感知产生显著影响,增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要,特别是需要理解人工智能生成信息可靠性的场景。
Jan, 2024
本研究探讨预测模型在医疗健康领域中的应用,特别是自监督模式下标记数据的超拟合问题,发现高斯过程能够以较高的预测准确性评估指标和平均最大预测置信水平,对 3 种不确定性标签进行风险评估并保持强大的预测力。
May, 2022
本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型,使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集,通过估计数据漂移量建立了鲁棒性,并在多个基准数据集上进行了实验证明了该方法的重要性。
Aug, 2020