自我评估适配提高 LLMs 的选择性预测能力
通过使用未标记的测试数据,我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案,然后在过滤掉低质量样本的同时将它们集成在一起,以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进,对于多样的提示更具鲁棒性,使语言模型保持稳定。
Oct, 2023
我们提出了一种自动化的大语言模型(LLM)转换方法,可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关,计算效率高,不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型,即尽可能回答问题同时保持给定的准确性,在必要时放弃提供预测。作为我们结果的一部分,我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明,使用我们方法提供的不确定性估计有选择性地回答问题,可以显著提高准确性,相比直接使用模型概率。
Nov, 2023
该论文研究自训练范式,其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练,以显著改善多个主题中生成中的虚构问题。此外,选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义,解决了训练 LLMs 过程中的关键限制。我们的研究结果表明,这种方法可以大幅减少对大规模标记数据的依赖,为更可伸缩和经济有效的语言模型训练铺平了道路。
Jun, 2024
通过将自己作为过滤器,利用训练后的评分网络来衡量每个指令的难度,并选择最具挑战性的样本,自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果,并取得优于竞争基线的性能。
Feb, 2024
本文提出了一种 Pareto 最优的自我监督框架,该框架可以利用可用的程序监督来系统地校准 LLM 响应,为每个响应产生风险分数,从而不需要进行任何额外的人工努力。
Jun, 2023