基于一致预测集的人类决策改善
在高风险领域中部署深度神经网络时,由于缺乏可解释性,不确定性量化变得具有挑战性。本文通过大规模预注册实验,比较了使用符合性预测集合与 Top-1 和 Top-k 预测展示相比在 AI 辅助图像标注中表现的优势,并发现对易任务来说,预测集合与 Top-1 和 Top-k 展示的准确性相当或略少,但在标记超出分布范围的图像时,特别是当集合大小较小时,预测集合能够卓越地帮助人类进行标注。研究结果从实证角度指出符合性预测集合的实际挑战,并提供了将其纳入实际决策制定的启示。
Jan, 2024
本文研究了如何在人与 AI 的合作中使用置信预测(conformal prediction)方法,发现使用置信预测可以提高团队绩效,引入 D-CP 方法则可以降低置信预测中的不确定性。
May, 2022
本文探讨了在深度神经网络中表示模型不确定性的 Conformal Prediction 框架,提出了一种新的基于概率方法的模型不确定性量化方法,并提供了可靠的边界用于计算不确定度。
Jun, 2023
决策者使用机器学习进行决策时,在预测结果相同的情境下通常会采取相同的行动。符合性预测有助于决策者量化行动的结果不确定性,从而实现更好的风险管理。我们提出了自洽符合性预测,它能够生成既具有 Venn-Abers 校准的预测,又能在模型预测促使的行动条件下保持有效的符合性预测区间。我们的方法可以后期应用于任何黑盒预测模型,为特定行动提供严格的决策保证。数值实验表明我们的方法在区间效率和条件有效性之间取得了平衡。
Feb, 2024
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于 NLP 系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及 NLP 中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
May, 2024
探讨如何利用符合性预测方法对大型语言模型进行不确定性量化,以提高其在多选题答题等任务中的可靠性及稳定性。研究发现,符合性预测所估计的不确定性与模型的预测准确性存在密切关联,这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨了符合性预测对于超出问题领域的问题的处理方法。本工作旨在为大型语言模型在安全关键性场景中提供更加可信和可靠的使用保障。
May, 2023
在安全关键的分类任务中,我们提出了一种适用于含有模糊标签的情况的 conformal prediction 框架,在 approximated 的标签的基础上通过近似输入的后验分布来进行不确定性的校准。我们在合成和真实数据集上验证了我们的方法,并在皮肤病学中患者条件分类的案例研究中进行了实证。
Jul, 2023