通过基于代理的不确定性估计来改进语言模型的指令遵循

ICMLMay, 2024

通过基于代理的不确定性估计来改进语言模型的指令遵循

Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation

JoonHo Lee, Jae Oh Woo, Juree Seok, Parisa Hassanzadeh, Wooseok Jang...

TL;DR我们提出了一种新颖的具有不确定性感知的奖励模型（URM），通过贝叶斯近似法对配对响应的质量进行稳健的不确定性估计，从而解决了评估语言模型中指令响应质量的问题。实验结果表明，将提出的代理方法纳入语言模型训练对指令遵循能力有显著提升，通过改进数据整理和优化策略，使其在诸如 Vicuna 和 MT-bench 等基准上大幅超越现有方法。这些发现突出了我们提出的方法在语言模型训练方面的重大进展，并为利用语言模型中的不确定性开拓了新的途径。

Abstract

Assessing response quality to instructions in language models is vital but challenging due to the complexity of human language across different contexts. This complexity often results in ambiguous or inconsistent

response quality instructions uncertainty-aware reward model language model training uncertainty estimation

发现论文，激发创造

语言奖励模型的不确定性估计

该论文探讨了利用不确定性估计技术提高样本效率和鲁棒性的方法，其中提出了利用打包聚合技术训练奖励模型，但研究结果显示，集成主动学习并不比随机采样更有效。

Mar, 2022

通过利用不确定性感知型上下文学习提高大型语言模型的可靠性

通过引入一种不确定性感知的上下文学习框架，我们改进了大规模语言模型的响应质量，并过滤掉具有较高不确定性的答案，从而提高了模型的准确性。

Oct, 2023

不确定性感知学习的语言模型对齐

我们提出了一种基于样本不确定性的学习方法，通过引入更能体现样本不确定性的模型，来改善不同任务情景下的模型对齐，实验证明我们的方法能显著提高模型性能和数据效率。

Jun, 2024

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024

大型语言模型的自然语言解释的不确定性量化

在这项研究中，我们尝试量化大型语言模型（LLM）解释的不确定性。为此，我们提出了两个新的度量标准 ——“口头化不确定性” 和 “探测不确定性”，用于量化生成解释的不确定性。我们的实证分析揭示了口头化不确定性不是可靠的解释置信度的估计，而探测不确定性的估计与解释的忠实度相关，较低的不确定性对应于较高的忠实度。这项研究为量化 LLM 解释的不确定性带来了洞察，有助于更广泛地探讨基础模型的可靠性。

Nov, 2023

LLM 对齐的贝叶斯奖励模型

为了确保大型语言模型的回复是有用且无毒的，通常我们会在人类偏好数据上对奖励模型进行微调。然后，我们选择具有高奖励的策略回复（最佳 n 采样），或者进一步优化策略以生成具有高奖励的回复（从人类反馈中进行强化学习）。然而，这个过程容易受到奖励过度优化或黑客攻击的影响，即所选择的回复之所以具有高奖励是因为奖励模型中存在错误，而不是真正的偏好。通过训练贝叶斯奖励模型，可以缓解这些问题，该模型可以在离训练数据分布较远的位置发出更高的不确定性信号。因此，我们使用 Laplace-LoRA（Yang 等，2024 年）训练了贝叶斯奖励模型，并发现由此产生的不确定性估计可以成功缓解最佳 n 采样中的奖励过度优化。

Feb, 2024

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023

依赖不可靠之处：语言模型不愿表达不确定性的影响

AI 与人类交互时，自然语言作为默示接口，需要全面地传达语言模型关于回复的不确定性。研究发现，现有的语言模型在回答问题时无法表达不确定性，导致高错误率。人类在实验中过分依赖于语言模型生成的回复，而且存在对不确定性回复的偏见。因此，该研究提出设计建议和缓解策略，以应对人类与语言模型互动中的新一套安全危害。

Jan, 2024

审慎行事：大型语言模型下的不确定性测量的探索性研究

从不确定性的角度进行的风险评估研究表明不确定性估计方法可用于揭示大型语言模型的预测风险，并可能发现由该模型生成的有错误的程序。

Jul, 2023

大型语言模型必须学会自知之明

在高风险应用中使用大型语言模型（LLMs）时，我们需要知道何时可以信赖它们的预测。本研究首先论证了仅仅使用提示是不足以实现良好校准的，然后展示了在一个小数据集上进行精调以创建具有良好概括性和小计算开销的不确定性估计的方法。我们还研究了可靠的 LLM 不确定性估计的机制，并通过用户研究展示了不确定性估计如何影响人与 AI 的协作环境中的人类使用 LLMs。

Jun, 2024