预测概率的解释：模型置信度还是人工标签变异性？

ACLFeb, 2024

预测概率的解释：模型置信度还是人工标签变异性？

Interpreting Predictive Probabilities: Model Confidence or Human Label Variation?

Joris Baan, Raquel Fernández, Barbara Plank, Wilker Aziz

TL;DR研究纸的主要议题和研究领域是 NLP 系统的不确定性评估，并讨论了预测分布对于模型信心和人类标签变化的指示的两种不同观点，推荐工具和展示了关于预测和人类标签不确定性的解耦表示的令人兴奋的方向。

Abstract

With the rise of increasingly powerful and user-facing nlp systems, there is growing interest in assessing whether they have a good representation of uncertainty by evaluating the quality of their →

nlp systems predictive distribution uncertainty evaluation protocols disentangled representations

发现论文，激发创造

自然語言處理模型後驗校準與探索性分析

本文主要讲述了自然语言处理中，对于语言结构的概率分布应当被直接评估，NLP 不确定性不只是管道组件，还应被投影到探索性数据分析中，我们提出了一种分析校准的方法，并将其应用于比较了几个常用模型的误校准情况；此外，我们还贡献了一种共参采样算法，旨在创建政治事件抽取任务的置信区间。

Aug, 2015

通过混淆矩阵和校准将人类预测与模型概率相结合

本文提出了一种将人类和机器学习模型的输出结合起来的算法，使得人类的分类结果和模型的概率结果相互补充，同时考虑模型的置信度，通过在 CIFAR-10 和 ImageNet 数据集上的实验证明，这种人机结合模型能够比单独使用模型或人类结果在分类精度上取得更好的结果，并且只需要使用 10 个标注好的数据点即可准确估计模型参数。

Sep, 2021

通过查看模型解释来解释预测不确定性

提取存在负面贡献性的词语可以解释使用预训练语言模型预测不确定性，这是对于模型决策辅助的重要补充，实验证明这项技术在模型解释和人类理解模型预测行为方面不可或缺。

Jan, 2022

探索自然语言处理中的预测不确定性和校准：对方法和数据稀缺性影响的研究

研究在从低资源语言中采样的数据集上训练模型的情况下，通过多种方法评估和分析神经分类器的预测置信度，发现尽管使用预训练模型和集成模型可以获得最佳结果，但数据集规模增大时不确定性估计的质量可能会受到影响。对序列不确定性进行了定性分析，发现模型的总不确定性在很大程度上受到数据不确定性的影响，并提供了开源的软件包。

Oct, 2022

文件分类中的不确定性缓解

本篇论文提出了一种基于神经网络和新型 dropout - 熵测量方法的模型以及基于特征表示的度量学习方法，可以更精确地预测，提高分类器的预测准确性，尤其在医学诊断等需要确定不确定预测的领域有广泛的应用。

Jul, 2019

评估数据集偏移下模型预测不确定性的可信度

以大量分类问题为基础，对现有现代机器学习方法中不同的贝叶斯和非贝叶斯概率量化预测不确定性的方法进行了评估，发现一些基于模型边缘化的方法在广泛的任务领域内表现出令人惊讶的强大效果。

Jun, 2019

通过解释理解和预测自然语言推理中的人类标签变化

该论文创建了一个包含注解高亮和自由文本解释的生态有效的自然语言推断数据集 --LiveNLI。使用该数据集对思维链进行提示，发现目前 GPT-3 在预测标签分布方面仍有改进的空间

Apr, 2023

大型语言模型中模型和人类置信度之间的校准差距

大型语言模型为了赢得人类的信任，需要具备良好的校准能力，准确评估和传达其预测的正确概率。本研究通过实验研究了人类用户对于语言模型可信度的感知和个性化解释对此感知的影响，发现默认解释会导致用户过高估计模型的信心和准确性，而更准确反映模型内部可信度的解释能够对用户感知产生显著影响，增强用户对语言模型输出的信任和准确性评估。透明传达语言模型可信度在高风险应用中尤为重要，特别是需要理解人工智能生成信息可靠性的场景。

Jan, 2024

临床自然语言处理中的半监督学习自动数据标注中的分歧建模

本研究探讨预测模型在医疗健康领域中的应用，特别是自监督模式下标记数据的超拟合问题，发现高斯过程能够以较高的预测准确性评估指标和平均最大预测置信水平，对 3 种不确定性标签进行风险评估并保持强大的预测力。

May, 2022

稳健验证：即使分布发生偏移，也能自信地做出预测

本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型，使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集，通过估计数据漂移量建立了鲁棒性，并在多个基准数据集上进行了实验证明了该方法的重要性。

Aug, 2020