LLM 基准性能上的基准率效应：区分考试策略与基准性能

Jun, 2024

LLM 基准性能上的基准率效应：区分考试策略与基准性能

The Base-Rate Effect on LLM Benchmark Performance: Disambiguating Test-Taking Strategies from Benchmark Performance

Kyle Moore, Jesse Roberts, Thao Pham, Oseremhen Ewaleifoh, Doug Fisher

TL;DR使用 MMLU 数据集，通过对空测验探究基本率概率对任务性能的影响以及如何通过反事实提示来减轻这种影响。我们提出了 Nvr-X-MMLU 任务作为 MMLU 的变种，从而消除测试能力对任务性能的混淆问题。

Abstract

cloze testing is a common method for measuring the behavior of large language models on a number of benchmark tasks. Using the mmlu dataset, we show that the →

cloze testing mmlu dataset base-rate probability counterfactual prompting test-taking ability

发现论文，激发创造

论证还是简单的下一个令牌预测？用于对大型语言模型进行压力测试的基准

我们提出了 MMLU-SR，这是一个新颖的数据集，旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型（LLMs）的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分，但我们发现在这种替换后模型的性能大幅下降，暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准，并向广大科学界提出了挑战。

Jun, 2024

超越静态模型和测试集：在任务和语言间评测预训练模型的潜力

本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法，以此取代传统基于翻译的方法评估系统，该方法表现良好并且能够可靠地估计模型在不同语言上的表现。

May, 2022

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

当基准成为目标：揭示大型语言模型排行榜的敏感性

利用基准排名构建的大型语言模型（LLM）排行榜经常被用来指导实践者选择模型，但我们展示了这是一个（潜在的昂贵）错误。在现有的排行榜中，LLM 的相对性能对（通常微小的）细节非常敏感。我们通过对多个选择题基准进行实验，比如改变选项的顺序或答案选择方法，我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议，包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险，并规划了更健壮的评估方案的路径。

Feb, 2024

检查 LLM 评估对基准分布假设的鲁棒性

基准测试作为评估大型语言模型（LLMs）的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设，即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立；相反，我们认为感兴趣的分布因具体用例而异。我们发现（1）模型在测试提示中的性能相关性是非随机的，（2）考虑到测试提示之间的相关性，可以改变主要基准测试中的模型排名，（3）导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。

Apr, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示 LLMs 的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于 LLMs 能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024

UBENCH：使用多项选择题对大型语言模型中的不确定性进行基准测试

针对大型语言模型（LLMs）的可解释性低，现有的评估系统主要考察问题解决能力而忽视了响应的不确定性，为此提出了 UBENCH，一个全面评估 LLM 可靠性的基准，包括了 3,978 个多项选择题，实验结果表明 UBENCH 取得了最先进的性能，同时与需要多次采样的基准方法相比，其单次采样方法显著节省了计算资源。此外，基于 UBENCH，我们评估了 15 个热门的 LLM 的可靠性，发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响，并分析了对不同 LLM 的不同效果。

Jun, 2024

改变答案顺序可降低 MMLU 准确度

通过对多个子任务的测试准确率进行评估，研究了大型语言模型在多项选择问答数据集上的可靠性，提出了调整排行榜测试标准的可能性。

Jun, 2024

明辨视界，难答问题：基于多模态鲁棒性的机器学习语言模型评估

通过提出一个多模态鲁棒性评估基准以及一个训练集，我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性，而这种脆弱性可以通过在新的训练集上进行微调来显著增强。

Jun, 2024

欺骗性提示对多模态语言模型的迷惑程度实证分析

通过 Quantum-Bench，我们比较了多种先进模型在对抗伪信息的能力上的表现，并提出了通过增加伪信息以增强模型韧性的建议。

Feb, 2024