ICL一致性测试

Dec, 2023

The ICL Consistency Test

Lucas Weber, Elia Bruni, Dieuwke Hupkes

TL;DR通过在GenBench合作基准任务中引入ICL一致性测试，我们对适应任务的通过提示方法（如上下文学习）的大型语言模型执行预测的一致性进行了评估，并发现所有测试的LLM模型均缺乏强健的泛化能力。

Abstract

Just like the previous generation of task-tuned models, large language models (LLMs) that are adapted to tasks via prompt-based methods like in-context-learning (ICL) perform well in some setups but not in others

发现论文，激发创造

通过语义一致性衡量大型语言模型的可靠性

本研究针对更新的预训练语言模型（PLMs）在语义一致性方面的问题，提出了一种衡量语义一致性的度量标准，并在TruthfulQA数据集上评估多个PLMs的性能，发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠，也与人类评估输出一致性的程度更为相关。

Nov, 2022

估计大型语言模型能力的方法（无需标记测试数据）

本文提出利用元模型，基于大型语言模型的置信度得分预测新任务的扩展学习（ICL）准确度，并在四个大型语言模型和三个任务集上对其进行了基准测试。

May, 2023

大型语言模型的语义一致性保障

通过引入语义一致性的综合度量和提出的问询策略来提高大型语言模型在开放式文本生成和闭卷问题回答方面的性能。

Aug, 2023

超越任务性能: 通过上下文学习评估和减少大型多模态模型的缺陷

基于Flamingo架构的8个近期开源LMMs在5个不同的维度中评估了他们的缺陷，并研究了在上下文学习(ICL)方面的解决方案，提出了Multitask-ICL、Chain-of-Hindsight-ICL和Self-Correcting-ICL等新的多模态ICL方法。

Oct, 2023

大规模语言模型在歧义下的自一致性

在含糊的整数序列填充任务中，我们在OpenAI模型套件上进行了一系列行为实验，发现平均一致性介于67％和82％之间，远高于模型一致性随机的预测，并随着模型能力的提高而增加。此外，我们发现模型在自我一致性上具有不良标定性，并且通常倾向于在潜在的答案中分配显著的权重。

Oct, 2023

用样本一致性校准大型语言模型

通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估，结果表明基于一致性的校准方法优于现有的事后方法，并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。

Feb, 2024

通过一致对齐提升大型语言模型的鲁棒性

定义了指令不一致问题并提出了两阶段训练框架，在第一阶段通过相似指令增强帮助模型跟随指令，第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性，并通过自奖励训练过程来验证该框架的有效性。

Mar, 2024

评估大型语言模型的一致性和推理能力

大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务，然而，这些模型往往会产生不正确和误导性的信息，主要原因是一致性和推理能力的不足，因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力，并发现专有模型在一致性和推理能力方面通常优于公开模型，但即使面对基本的常识问题，没有一个模型在一致性和推理能力上都达到90%的得分。

Apr, 2024

ICLEval：评估大型语言模型的上下文学习能力

通过ICLEval基准测试，我们展示了不同大语言模型中ICL能力普遍存在，并且模型大小不是ICL功效的唯一决定因素。

Jun, 2024

AXCEL：使用大语言模型的自动可解释一致性评估

本研究解决了评估生成文本一致性的问题，现有的度量方法与人类判断的相关性较低且缺乏可解释性。提出的AXCEL方法通过提供详细推理和指出不一致文本片段，显著提高了评估水平，且能够广泛适用于多种任务。AXCEL在检测不一致性方面超越了现有的最先进指标，其性能提升显著，具有广泛的应用潜力。

Sep, 2024