非可交换的最近邻一致性语言生成
本文通过使用conformal prediction方法对$p$参数进行校准来研究top-$p$采样在各种语言上下文环境下是否与其概率意义对齐,结果表明OPT模型存在过度自信,而校准与模型大小存在适度的反比关系。
May, 2023
本文介绍了一种新的评估机器翻译不确定性的方法,通过同时评估翻译质量并提供可靠的置信度分数来实现。我们的方法利用符合性预测分布来生成具有保证覆盖率的预测区间,意味着对于任何给定的显著性水平,我们可以预期翻译的真实质量得分以$1-ε$的速率落在区间之外。在本文中,我们演示了我们的方法在六种不同的语言对中优于一个简单但有效的基线,从覆盖率和锐度的角度进行评估。此外,我们验证了我们的方法需要数据可交换性假设才能实现最佳性能。
Jun, 2023
通过引入根据符合性预测的束搜索算法的两个新扩展,我们可以生成带有理论覆盖保证的序列集合。首个方法非常简单且建议动态大小的束搜索结果子集,但与典型的符合性预测过程不同,其可行保证取决于事后校准测量。我们的第二个算法将符合性集预测过程引入解码过程,产生一个适应当前不确定性的可变束宽度。尽管更加复杂,该程序可以实现预先选择的覆盖保证。我们为每种方法提供了边际覆盖保证,并在绘制自然语言处理和化学方面的多个任务的选择中对其进行了实证评估。
Sep, 2023
本研究旨在解决大型语言模型中无法访问 logits 的不确定性量化的普遍挑战。我们提出了一种面向 API-only 语言模型的新型 CP 方法,通过同时利用粗粒度(如样本频率)和细粒度(如语义相似性)的不确定性概念来构建不确定度量,实现了更好的预测性能。实验证明,我们的方法在封闭式和开放式问答任务中大多能够胜过基于 logits 的 CP 对照组。
Mar, 2024
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于NLP系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及NLP中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
May, 2024
我们开发了新的一致推断方法,用于获取大型语言模型 (LLMs) 输出的有效性保证。我们通过过滤控制函数的评估结果来确定出LLM响应中满足高概率正确性保证的文本子集。我们的方法解决了现有方法存在的两个问题,首先,所述保证并非条件有效;其次,因为评分函数不完善,过滤步骤可能会删除许多有价值和准确的声明,我们通过两种新的一致方法解决了这两个挑战。
Jun, 2024
通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则,本研究在自然语言生成任务中,将确定性预测转化为严格的理论保证,从而解决了最近大型语言模型中的异构不确定性问题,并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答案分布中校准预测集,实现对6个大型语言模型在4个自由格式的自然语言生成数据集上的正确覆盖率的严格控制,证明了我们的方法在实际开放式自然语言生成应用中提供可靠保证的高效性。
Jun, 2024
本研究针对生成模型在安全关键应用中缺乏严格统计保证的问题,提出了一种名为顺序符合性预测生成模型(SCOPE-Gen)的新方法。该方法通过初始样本的逐步处理,实现了显著降低合规评估的次数,从而提高了在高风险领域的应用效率。
Oct, 2024