本文介绍了一种新的评估机器翻译不确定性的方法,通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间,意味着对于任何给定的显著性水平,我们可以预期翻译的真实质量得分以 $1-ε$ 的速率落在区间之外。在本文中,我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线,从覆盖率和锐度的角度进行评估。此外,我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。
Jun, 2023
过去几十年,数据分析和机器学习领域的大部分工作都致力于优化预测模型,并取得比现有模型更好的结果。然而,本文指出对于很多应用而言,更加重要的并非准确的预测,而是变异性或不确定性。本文进一步探讨了让每个人了解不确定性、意识到其重要性并学会拥抱而不是害怕不确定性的世界,对一种确定性估计准确性的具体框架 —— 被称为 “符合性预测” 的框架进行了细致研究。而且,无需对数据进行参数假设,这一非参数结果在渐近程度上也不必依赖大数定律,使得这个框架成为唯一值得称为 “无分布假设” 的框架。
May, 2024
我们开发了新的一致推断方法,用于获取大型语言模型 (LLMs) 输出的有效性保证。我们通过过滤控制函数的评估结果来确定出 LLM 响应中满足高概率正确性保证的文本子集。我们的方法解决了现有方法存在的两个问题,首先,所述保证并非条件有效;其次,因为评分函数不完善,过滤步骤可能会删除许多有价值和准确的声明,我们通过两种新的一致方法解决了这两个挑战。
Jun, 2024
提出了一种名为局部一致性预测的新方法,它可以仅使用新测试样本周围的局部区域来构建置信区间,旨在将数据互换性打破为测试样本赋予特殊角色的情况下,推广了一致性预测方法,并证明了其假设无关与有限样本覆盖保证,并在模拟中比较了局部一致性预测和一致性预测的行为。
Aug, 2019
介绍一种无需分布假设或模型假设,可用于任何预训练模型(如神经网络)生成 100% 正确性置信区间(信赖区间)的方法, 称之为一致预测;并提供了 Python 示例代码和 Jupyter 笔记本来说明此方法在计算机视觉、自然语言处理和深度强化学习等领域上的应用。
Jul, 2021
这篇论文介绍了一种在在线环境中通过投票将多个算法的预测集合结合起来的方法,从而解决了在 conformal prediction 中的模型选择和 / 或聚合问题。
Mar, 2024
本文调查了最近的深度学习方面的不确定性量化的研究,特别关注了具有数学特性和广泛适用性的无分布符合预测方法,介绍了相关技术和在时空数据背景下提高校准和效率的方法,并讨论了不确定性量化在安全决策方面的作用。
Sep, 2022
本文研究了如何使用规范预测方法构建自适应预测区间,通过使用归一化和蒙德里安规范预测等方法,在理论和实验结果中进行系统性调查。
Sep, 2023
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于 NLP 系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及 NLP 中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
人工智能系统中使用不可靠的预测会对决策产生负面影响,而基于模型不可知性量化的符合性预测方法可以解决这个问题,特别是在地球观测应用中,该方法可以提供可靠的不确定性信息并增强可靠性。
Jan, 2024