大型语言模型中自我评估提高选择性生成
通过证明大型语言模型在回答问题时,如果它们更为熟练,显示更均匀的概率分布,我们启发性地讨论了这个问题。在此基础上,我们提出了一种新的自我评估方法 ProbDiff,用于评估各种语言模型的效能。该方法利用被测试的语言模型计算初始回答与修改版本之间的概率差异,避免了额外评估模型的需要,也不依赖于外部的专有模型如 GPT-4。我们的研究结果表明 ProbDiff 在各种情景下如翻译、摘要生成、我们提出的 “小红书” 博客写作等自然语言生成任务以及 AlignBench、MT-Bench 和 AlpacaEval 等语言模型评估基准上取得了与基于 GPT-4 的评估相当的结果。
May, 2024
基于自评估的自适应选可信度模型,通过使用参数高效调整适应大型语言模型到特定任务,提高其自评估能力,以改善选择性预测性能。在多种问答数据集上的评估结果显示,该方法优于现有的选择预测方法。
Oct, 2023
本研究探讨了自然语言处理领域中生成文本内容的自动评估问题,特别是着重考察了基于语言模型的评估指标在摘要任务中是否存在对相应底层语言模型的有利偏差,并揭示出在无参考摘要的情况下,这种评估指标可能受到潜在偏见的影响,强调未来需要开发更可靠的评估协议。
Nov, 2023
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了 LLMs 评估方法的有效性和未来研究的启示。
Feb, 2024
通过引入统一的校准框架,以及发展三种度量和两种置信度引导方法,提高大规模语言模型的校准能力,并进行了实验验证,进一步展示了大型模型不一定保证更好的校准,校准性能依赖于度量,自一致性方法在基准数据集上表现优异,通过微调、整合相关源文件、缩放温度、将自一致性与自我评估相结合等技术可以提高校准性,此研究不仅挑战了现有大规模语言模型校准的概念,还提供了改善长文生成可信度的实用方法。
Feb, 2024
本研究探讨了大型语言模型在生成任务中表现出的能力是否同样适用于评估任务,通过使用 TriviaQA 数据集对三个大型语言模型和一个开源语言模型在问答和评估任务中的表现进行评估,结果显示存在显着差异,大型语言模型在评估任务中表现较差。有趣的是,我们发现存在不忠实的评估问题,即模型会在其不擅长的领域正确评估答案,强调了需要审查大型语言模型作为评估者的忠实度和可信度的必要性。本研究有助于理解 “生成型人工智能悖论”(West 等人,2023),强调了需要探索生成卓越性与评估能力之间的关联性,并有必要审视模型评估中的忠实度方面。
Feb, 2024
基于 Feynman 的理解通过创造原则,我们引入了一个易于实施的自我认知评估框架,评估模型对自动生成的问题的理解和回应能力。我们的研究发现,在多个任务上测试多个模型后,模型的自我认知能力存在显著差距。进一步分析表明,这些差距可能是由于与人类注意机制的不匹配所导致的。此外,对自动生成的数学任务进行微调可以提高模型的数学性能,突出了该框架在高效和富有洞察力的模型评估方面的潜力,并可能有助于改善大型语言模型。
Jun, 2024
使用大型语言模型(LLMs)评估文本质量近来变得流行。本文分析了 LLM 评估(Chiang 和 Lee,2023)和 G-Eval(Liu et al.,2023),讨论了评估过程中的细节如何改变 LLMs 给出的评分与人类评分的相关性。我们发现 G-Eval 中使用的自动思维链(CoT)并不总是使 G-Eval 与人类评分更加一致。我们还表明,强制 LLM 仅输出数字评分,如 G-Eval 中所示,是不理想的。最后,我们揭示出要求 LLM 解释其自身评分会持续改善 ChatGPT 与人类评分之间的相关性,并在两个元评估数据集上推动了最新技术的相关性。
Oct, 2023
通过自动和人工评估,我们对一系列开源和闭源生成式 LLMS 在文本摘要、文本简化和语法错误纠正等三个 NLP 基准上进行初步的混合评估,发现 ChatGPT 在大多数指标上始终优于其他流行模型,而使用经典的自动评估指标时,得分要低得多。我们还发现人工评估员评价黄金参考指标比最佳模型输出差得多,表明许多流行基准的质量较低。最后,我们发现 GPT-4 能够在特定任务的变异性较小的情况下,对模型输出进行排名,与人类判断趋于一致,但在语法错误纠正任务中的排名一致性较低。
Oct, 2023