自我评估适配提高 LLMs 的选择性预测能力

EMNLPOct, 2023

自我评估适配提高 LLMs 的选择性预测能力

Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs

Jiefeng Chen, Jinsung Yoon, Sayna Ebrahimi, Sercan O Arik, Tomas Pfister...

TL;DR基于自评估的自适应选可信度模型，通过使用参数高效调整适应大型语言模型到特定任务，提高其自评估能力，以改善选择性预测性能。在多种问答数据集上的评估结果显示，该方法优于现有的选择预测方法。

Abstract

large language models (LLMs) have recently shown great advances in a variety of tasks, including natural language understanding and generation. However, their use in high-stakes decision-making scenarios is still limited due to the potential for errors. →

large language models selective prediction self-evaluation question-answering adaptation

发现论文，激发创造

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023

测试时间自适应的小型语言模型在问答中的应用

通过使用未标记的测试数据，我们展示并研究了仅凭借未标记的测试数据的自适应语言模型的能力。我们首先随机生成多个答案，然后在过滤掉低质量样本的同时将它们集成在一起，以减轻不准确标签引入的噪声。我们提出的自适应策略在基准问答数据集上表现出了显著的性能改进，对于多样的提示更具鲁棒性，使语言模型保持稳定。

Oct, 2023

基于不确定性的选择性问题回答语言建模

我们提出了一种自动化的大语言模型（LLM）转换方法，可以产生能够在每个预测中估计不确定性的具有不确定性感知能力的 LLM。我们的方法与模型和数据无关，计算效率高，不依赖外部模型或系统。我们在选择性问答环境下评估了转换模型，即尽可能回答问题同时保持给定的准确性，在必要时放弃提供预测。作为我们结果的一部分，我们在 SQuAD 抽取式问答任务和 TruthfulQA 生成式问答任务上测试了 BERT 和 Llama 2 模型变体。我们表明，使用我们方法提供的不确定性估计有选择性地回答问题，可以显著提高准确性，相比直接使用模型概率。

Nov, 2023

无监督的问答模型自适应

通过无监督的大语言模型适应，研究论文探索了在不同目标领域中提供正确答案的问题回答，并研究了输入标记替换等方法来部分缓解中间和末尾信息获取的困难。

Feb, 2024

通过知识检测自我训练大型语言模型

该论文研究自训练范式，其中大型语言模型 (Large language models, LLMs) 通过自主策划标签并选择性地在未知数据样本上训练，以显著改善多个主题中生成中的虚构问题。此外，选择性训练框架在处理超出分布基准的灾难性遗忘时具有重要意义，解决了训练 LLMs 过程中的关键限制。我们的研究结果表明，这种方法可以大幅减少对大规模标记数据的依赖，为更可伸缩和经济有效的语言模型训练铺平了道路。

Jun, 2024

大型语言模型可自我提升

本文提出了一种方法，使用未标注的数据进行自我训练和推理提高，通过 fine-tuning 在多个任务上达到了 SOTA 水平。

Oct, 2022

LLM 评估员认可并支持同一代人

大型语言模型的自我评估能力，特别是自我偏好和自我识别能力，对于无偏评估和人工智能安全性具有重要影响。

Apr, 2024

你的视觉语言模型本身就是一个强大的过滤器：走向高质量的指令调优与数据选择

通过将自己作为过滤器，利用训练后的评分网络来衡量每个指令的难度，并选择最具挑战性的样本，自过滤方法可以在仅使用约 15% 的样本的情况下达到比全数据设置更好的结果，并取得优于竞争基线的性能。

Feb, 2024

通过帕累托最优自我监督实现大型语言模型的自动校准和误差修正

本文提出了一种 Pareto 最优的自我监督框架，该框架可以利用可用的程序监督来系统地校准 LLM 响应，为每个响应产生风险分数，从而不需要进行任何额外的人工努力。

Jun, 2023

选择性预测：降低视觉语言推理中的不必要弃权

通过推理时间算法减少选择性视觉语言系统的过度式避免并提高系统可靠性。

Feb, 2024