MTU-Bench:针对大型语言模型的多粒度工具使用基准
本文提出了一种利用语言数据和语言类型学特征来预测跨语种语言模型性能的方法,以此取代传统基于翻译的方法评估系统,该方法表现良好并且能够可靠地估计模型在不同语言上的表现。
May, 2022
通过评估 GPT-4 和 PaLM2 在 MEGAVERSE 数据集上的表现,研究发现这两个模型在多个任务上超过了 Llama 模型,尤其是在资源稀缺的语言中,其中 GPT-4 在更多的数据集上优于 PaLM2。然而,为了准确评估非英语语言上 LLM 的性能,我们需要解决数据污染等问题。
Nov, 2023
通过参数高效微调能够提高大语言模型的性能,而无需大量的资源和计算。对多语言评估的先前研究表明,英语和其他语言在性能上存在很大差距。此外,开源模型和较大规模的语言模型之间也存在差距。微调是弥合差距、使语言模型更加公平的有效方法。本研究通过对合成多语言指示微调数据上进行 LLaMA-7B 和 Mistral-7B 模型的微调,以评估其对模型在涵盖 23 种语言的五个下游任务上的性能影响。此外,我们还在低秩适应的等级和量化值上进行了实验,以确定它们对下游性能的影响并发现较高的等级和量化值有益于低资源语言。我们发现通过参数高效微调较小的开源模型有时可以弥合这些模型和较大模型性能之间的差距,但对英语性能有所降低。我们还发现微调有时可以提高低资源语言的性能,但在高资源语言上性能可能会下降。
Jan, 2024
通过分析人类-大型语言模型对话,我们将互动模式分为回忆、扩展、细化和后续四种类型,构建多轮查询来评估多轮会话能力,结果显示大多数模型在多轮设置中性能下降,影响因素为相关内容距离和错误传播敏感性。
Jan, 2024
通过研究LLM在各种关键基准测试中的表现,我们探索了减少LLM性能评估所需评估次数的策略,并发布了评估工具和微型基准测试,证明这些工具和测试足以可靠高效地复现原始评估结果。
Feb, 2024
大型语言模型(LLMs)在各个领域中表现出卓越的能力,但在实际应用之前对其进行彻底评估是至关重要的,以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制,并根据我们的批判性评估提出了观点和建议,以确保LLM评估具有可重现性、可靠性和稳健性。
Jul, 2024
我们提出了一种新的大语言模型(LLMs)测评范式——Benchmarking-Evaluation-Assessment,将LLMs的评估位置从“考试室”转移到“医院”,通过对LLMs进行“体检”,利用特定任务解决作为评估内容,深入分析LLMs存在的问题,并为优化提供建议。
Jul, 2024
大型语言模型(LLMs)虽然在自然语言处理任务中表现出色,但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具,提出WTU-Eval基准评估来评估LLMs的性能,并通过细调数据集改善工具决策,结果显示LLMs在一般数据集中难以确定工具使用,并且错误的工具使用显著损害了LLMs的性能。
Jul, 2024
利用超过5000个大型语言模型的数据,从六个基准测试中提取出信息量最大的项目,生成一个稀疏基准测试benchmark,其组合总体积不到原始六个基准测试总体积的3%,并能以最小均方根误差重构每个原始基准测试的分数,总体积的重构均方根误差为0.8%,并且具有单一的共同因子,与总体积的斯皮尔曼相关性为0.93。
Jul, 2024
本研究旨在解决当前大型语言模型(LLMs)基准评估方法依赖预定义参考输出的问题,使得评估难以灵活适应迅速发展的模型能力。我们提出的Varco Arena通过单淘汰赛制进行无参考的模型输出直接比较,提供了更可靠的模型排名与评估灵活性,实验证明该方法与当前的Elo基准模型更好对齐,具有显著提升效果。
Nov, 2024