PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量

May, 2024

PertEval: 揭示权知识能力不变扰动下的 LLMs 真实知识容量

PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations

Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu...

TL;DR通过 PertEval 工具集，利用知识不变的扰动以人类样式修正技巧从静态基准中生成即席测试样本，精确评估 LLMs 真正的知识能力。通过对六个最先进的 LLMs 进行重新评估，结果显示 LLMs 在原始基准上明显夸大性能，其中包括 GPT-4 超过 21% 的绝对高估。此外，PertEval 的详细过渡分析可揭示现有 LLMs 知识掌握的弱点，并指导改进的开发，从而发现了一种重要的评估 LLMs 真实知识能力的方法。

Abstract

Expert-designed close-ended benchmarks serve as vital tools in assessing the knowledge capacity of large language models (LLMs). Despite their widespread use, concerns have mounted regarding their reliability due

close-ended benchmarks knowledge capacity perturbations transition analyses llm evaluation

发现论文，激发创造

RUPBench：基于干扰的推理鲁棒性评估大型语言模型的基准测试

通过对大型语言模型（LLMs）进行系统的鲁棒性评估，本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。

Jun, 2024

KIEval：大型语言模型的基于知识的交互评估框架

KIEval 是一个知识驱动的交互式评估框架，通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色，进行动态抗干扰评估，以确定模型的回答是否仅仅是基准答案的回忆，还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的七个领先 LLM 进行的大量实验证实了 KIEval 的有效性和泛化性，同时揭示了数据污染对模型在现实世界的适用性和理解力没有贡献甚至产生负效应的事实，并且现有的 LLM 数据干扰检测方法只能在预训练阶段识别干扰而无法在监督微调期间进行识别。

Feb, 2024

可解释性检查表在评估员 LLMs 中的盲点发现

通过引入有针对性的扰动来测试评估者 LLMs 的能力，研究发现当前评估者 LLMs 存在显著不足，并强调在实际应用中需谨慎使用。

Jun, 2024

LLM 的输入扰动问题重新审视：噪声槽填充任务的统一鲁棒性评估框架

使用大型语言模型来评估对话理解能力，在输入扰动场景下提高扰动稳健性表现。

Oct, 2023

陷入数理泥潭，远离 AGI 峰会：通过本体引导的扰动评估 LLM 的数学能力

该研究通过扰动问题和生成数据集，评估大型语言模型在数学推理任务中的能力，结果表明现有模型在扰动问题上性能显著下降，缺乏深度推理能力。

Jan, 2024

评估无法评估的内容：无法评估生成响应的质量

本研究构建了两个方言生成数据集 KdConv-ADV 和 DSTC7-ADV 以综合评估基于 LLMs 的评估器的可靠性，并发现使用基于 LLMs 的参考无关评估器评估对话响应的风险存在。

May, 2023

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

大型语言模型对词级扰动真的具有强健性吗？

利用预训练的奖励模型作为诊断工具，我们提出了一种用于评估大规模语言模型的稳健性的新方法，称为奖励模型合理鲁棒性评估（TREvaL）。经过广泛的实证实验，我们发现 TREvaL 在评估大规模语言模型的稳健性方面提供了一种准确的方法，尤其是在面对更具挑战性的开放性问题时。此外，我们的结果表明，大规模语言模型经常表现出对词级扰动的脆弱性，而这种扰动在日常语言使用中很普遍。令人惊讶的是，我们发现随着进一步的微调（SFT 和 RLHF）进行，模型的鲁棒性往往会降低。

Sep, 2023

VarBench: 动态变量扰动下的鲁棒语言模型基准测试

通过提出变量扰动方法，从每个测试用例中提取变量，并为每个变量定义一个值范围，以确保每次评估都是新鲜的，从而解决了基准数据泄漏和数据污染问题，提供了更准确评估语言模型真实能力的方法。

Jun, 2024

大型语言模型中自我评估提高选择性生成

使用大型语言模型进行自我评估可以提高生成内容的准确性，并与生成内容的整体质量更好地相关。

Dec, 2023