共形语言建模
我们开发了新的一致推断方法,用于获取大型语言模型 (LLMs) 输出的有效性保证。我们通过过滤控制函数的评估结果来确定出 LLM 响应中满足高概率正确性保证的文本子集。我们的方法解决了现有方法存在的两个问题,首先,所述保证并非条件有效;其次,因为评分函数不完善,过滤步骤可能会删除许多有价值和准确的声明,我们通过两种新的一致方法解决了这两个挑战。
Jun, 2024
快速增长的大型语言模型和自然语言处理(NLP)应用对不确定性量化提出了关键需求,以减轻幻象等风险并提高关键应用中的决策可靠性。条件预测正在成为一个理论上健全且实用的框架,结合了灵活性和强有力的统计保证。它的模型无关性和无分布性质使其特别有希望解决源于 NLP 系统缺乏不确定性量化的现有缺点。本文对条件预测技术、其保证以及 NLP 中的现有应用进行了全面调研,指出了未来研究的方向和面临的挑战。
May, 2024
通过连接语言建模和符合预测,我们提出了一种名为符合真实性的框架,可以确保语言模型输出的高概率正确性保证。我们观察到语言模型输出的正确性等同于一个不确定性量化问题,其中不确定性集合被定义为语言模型输出的蕴含集合。利用这种连接,我们展示了在语言模型中的符合预测对应于一种回退算法,通过逐步使语言模型输出不太具体(并扩大相关的不确定性集合)以提供高概率的正确性保证。这种方法适用于任何黑盒语言模型,并且只需要很少的人工标注样本。我们对我们的方法在闭卷问答(FActScore,NaturalQuestions)和推理任务(MATH)上进行评估,结果表明我们的方法可以在保留大部分语言模型原始输出的同时提供 80-90% 的正确性保证。
Feb, 2024
探讨如何利用符合性预测方法对大型语言模型进行不确定性量化,以提高其在多选题答题等任务中的可靠性及稳定性。研究发现,符合性预测所估计的不确定性与模型的预测准确性存在密切关联,这一发现可以用于选择性分类及过滤低质量预测结果等下游应用。研究还探讨了符合性预测对于超出问题领域的问题的处理方法。本工作旨在为大型语言模型在安全关键性场景中提供更加可信和可靠的使用保障。
May, 2023
通过利用最近对非交换式依从预测的研究结果,我们提出了一种新的统一预测框架的扩展,名为非交换式依从核心采样,用于基于最近邻的生成。我们的方法可以后处理任意模型,提供具有统计保证的标记级预测集,并且在机器翻译和语言建模实验中展示了令人鼓舞的生成质量结果。通过产生更紧的预测集并实现良好覆盖率,我们从理论上给出了一种更有原则性的具有依从保证的抽样方法。
Feb, 2024
本研究提出基于收缩预测算法的文本填充和词性预测算法,并将其应用于自然语言数据处理中。通过在波士顿语料库中进行仿真实验,结论表明该算法能够生成有效的置信区间,并在机器语音转录中有改进应用。
Nov, 2021
通过从预测集构建的置信度条件中整合正确性对齐的不确定性准则,本研究在自然语言生成任务中,将确定性预测转化为严格的理论保证,从而解决了最近大型语言模型中的异构不确定性问题,并利用抽样不确定性测量方法提高了先前最先进的方法。通过在模型的非固定答案分布中校准预测集,实现对 6 个大型语言模型在 4 个自由格式的自然语言生成数据集上的正确覆盖率的严格控制,证明了我们的方法在实际开放式自然语言生成应用中提供可靠保证的高效性。
Jun, 2024
提出了一种名为局部一致性预测的新方法,它可以仅使用新测试样本周围的局部区域来构建置信区间,旨在将数据互换性打破为测试样本赋予特殊角色的情况下,推广了一致性预测方法,并证明了其假设无关与有限样本覆盖保证,并在模拟中比较了局部一致性预测和一致性预测的行为。
Aug, 2019
本文提出一种名为局部合规预测的新的推理框架,它通过提供围绕测试样本的局部区域的自适应构建的单次测试样本,以及与不同合规得分结构相结合,来推广合规预测的框架。该框架享有无假设的有限样本边际覆盖保证,并在适当的假设条件下提供额外的局部覆盖保证。我们展示了如何使用多个合规分数从合规预测变为局部合规预测,并通过数值实例说明了潜在的收益。
Jun, 2021