ICL一致性测试
本研究针对更新的预训练语言模型(PLMs)在语义一致性方面的问题,提出了一种衡量语义一致性的度量标准,并在TruthfulQA数据集上评估多个PLMs的性能,发现我们提出的语义一致性度量标准比传统的基于词汇一致性的度量标准更可靠,也与人类评估输出一致性的程度更为相关。
Nov, 2022
本文提出利用元模型,基于大型语言模型的置信度得分预测新任务的扩展学习(ICL)准确度,并在四个大型语言模型和三个任务集上对其进行了基准测试。
May, 2023
基于Flamingo架构的8个近期开源LMMs在5个不同的维度中评估了他们的缺陷,并研究了在上下文学习(ICL)方面的解决方案,提出了Multitask-ICL、Chain-of-Hindsight-ICL和Self-Correcting-ICL等新的多模态ICL方法。
Oct, 2023
在含糊的整数序列填充任务中,我们在OpenAI模型套件上进行了一系列行为实验,发现平均一致性介于67%和82%之间,远高于模型一致性随机的预测,并随着模型能力的提高而增加。此外,我们发现模型在自我一致性上具有不良标定性,并且通常倾向于在潜在的答案中分配显著的权重。
Oct, 2023
通过从多个随机抽样的模型生成的分布中导出确定度來提高大型语言模型(LLM)预测的准确度。在多个开放和闭源模型上进行广泛评估,结果表明基于一致性的校准方法优于现有的事后方法,并提供了选择适用于不同LLMs特性的合适一致性度量标准的实用指南。
Feb, 2024
定义了指令不一致问题并提出了两阶段训练框架,在第一阶段通过相似指令增强帮助模型跟随指令,第二阶段通过区分相似回应中微小差异来提高模型的多样性和人类期望的一致性,并通过自奖励训练过程来验证该框架的有效性。
Mar, 2024
大型语言模型在学术、研究、商业和金融等领域被广泛应用于文本生成、摘要和翻译等任务,然而,这些模型往往会产生不正确和误导性的信息,主要原因是一致性和推理能力的不足,因此本研究旨在评估和比较公开和专有的大型语言模型的一致性和推理能力,并发现专有模型在一致性和推理能力方面通常优于公开模型,但即使面对基本的常识问题,没有一个模型在一致性和推理能力上都达到90%的得分。
Apr, 2024
本研究解决了评估生成文本一致性的问题,现有的度量方法与人类判断的相关性较低且缺乏可解释性。提出的AXCEL方法通过提供详细推理和指出不一致文本片段,显著提高了评估水平,且能够广泛适用于多种任务。AXCEL在检测不一致性方面超越了现有的最先进指标,其性能提升显著,具有广泛的应用潜力。
Sep, 2024