LLM 基准性能上的基准率效应:区分考试策略与基准性能
我们提出了 MMLU-SR,这是一个新颖的数据集,旨在通过在问题回答任务中使用修改后的术语挑战大型语言模型(LLMs)的性能来测量其真实的理解能力。尽管最近流行的 LLMs 在 MMLU 排行榜上获得了高分,但我们发现在这种替换后模型的性能大幅下降,暗示了其理解能力较差。这个新的基准提供了一个严格测试真实模型理解能力的基准,并向广大科学界提出了挑战。
Jun, 2024
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM 的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。
Feb, 2024
基准测试作为评估大型语言模型(LLMs)的核心方法已经出现。研究界通常依赖于模型在基准测试的测试提示中的平均性能来评估模型的表现。这一点符合一个假设,即基准测试中的测试提示代表来自真实世界的感兴趣的分布的随机样本。我们注意到这一点通常并不成立;相反,我们认为感兴趣的分布因具体用例而异。我们发现(1)模型在测试提示中的性能相关性是非随机的,(2)考虑到测试提示之间的相关性,可以改变主要基准测试中的模型排名,(3)导致这些相关性的解释因素包括语义相似性和常见的 LLM 失败点。
Apr, 2024
我们通过转化问题、多选题和直接文本补全的实验评估,研究了大型语言模型(LLMs)在因果推理、不确定性方面能力的量化,结果显示 LLMs 的表态答案与预测真实信念存在显著差异,提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性,对于 LLMs 能力的评估方法仅提供了部分信息,需要进一步研究其能力的广度和本质。
Jun, 2024
针对大型语言模型(LLMs)的可解释性低,现有的评估系统主要考察问题解决能力而忽视了响应的不确定性,为此提出了 UBENCH,一个全面评估 LLM 可靠性的基准,包括了 3,978 个多项选择题,实验结果表明 UBENCH 取得了最先进的性能,同时与需要多次采样的基准方法相比,其单次采样方法显著节省了计算资源。此外,基于 UBENCH,我们评估了 15 个热门的 LLM 的可靠性,发现 GLM4 和 GPT-4 表现突出。我们还探讨了 Chain-of-Thought 提示、角色扮演提示、选项顺序和温度对 LLM 可靠性的影响,并分析了对不同 LLM 的不同效果。
Jun, 2024
通过提出一个多模态鲁棒性评估基准以及一个训练集,我们发现多模态大型语言模型在理解视觉内容方面存在脆弱性,而这种脆弱性可以通过在新的训练集上进行微调来显著增强。
Jun, 2024