WTU-EVAL：面向大型语言模型的工具使用评估基准

Jul, 2024

WTU-EVAL：面向大型语言模型的工具使用评估基准

WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models

Kangyun Ning, Yisong Su, Xueqiang Lv, Yuanzhe Zhang, Jian Liu...

TL;DR大型语言模型（LLMs）虽然在自然语言处理任务中表现出色，但仍需要外部工具来扩展其能力。本研究探索LLMs是否能够确定其能力边界并灵活使用工具，提出WTU-Eval基准评估来评估LLMs的性能，并通过细调数据集改善工具决策，结果显示LLMs在一般数据集中难以确定工具使用，并且错误的工具使用显著损害了LLMs的性能。

Abstract

Although large language models (LLMs) excel in NLP tasks, they still need external tools to extend their ability. Current research on tool learning with LLMs often assumes mandatory tool use, which does not alway

发现论文，激发创造

对大型语言模型评估的调查

大语言模型（LLMs）的评估方法是研究这些模型的重要组成部分，这篇综述介绍了评估LLMs的方法和维度，并总结了LLMs在不同任务中的成功案例、失败案例和未来挑战。

Jul, 2023

基于大型语言模型的评估器能够解决多语种评估的扩展问题吗？

通过对大型语言模型的评估，本文发现LLM-based evaluators在多语言评估方面可能存在偏差，并需要使用本地语言的数据集进行校准。

Sep, 2023

T-Eval: 逐步评估工具利用能力

大型语言模型的工具利用能力评估需要细致分解，利用指导、规划、推理、检索、理解和审查等多个子过程，通过T-Eval提供了多个子领域的工具利用评估，既展示了结果导向评估的一致性，也提供了对大型语言模型能力的细粒度分析。

Dec, 2023

ToolEyes：大规模语言模型在实际场景中工具学习能力的细粒度评估

现有对工具学习的评估主要集中在验证大型语言模型（LLMs）与预期结果的工具选择的一致性上。然而，这些方法依赖于一组有限的可以预先确定答案的场景，与真实需求相背离。此外，过于关注结果忽略了LLMs有效利用工具所必需的复杂能力。为解决这个问题，我们提出了ToolEyes，一个精细的系统，用于评估LLMs在真实场景中的工具学习能力。该系统细致地检查了七个现实世界的场景，分析了对LLMs在工具学习中至关重要的五个方面：格式对齐、意图理解、行为规划、工具选择和答案组织。此外，ToolEyes还采用了一个拥有约600个工具的工具库，充当LLMs与物理世界之间的中介。涉及三个类别的十个LLMs的评估结果表明对特定场景有偏好，并且在工具学习方面的认知能力有限。有趣的是，模型尺寸的扩大甚至加剧了对工具学习的阻碍。这些发现提供了对推动工具学习领域的有益见解。

Jan, 2024

tinyBenchmarks: 用较少的样例评估LLM

通过研究LLM在各种关键基准测试中的表现，我们探索了减少LLM性能评估所需评估次数的策略，并发布了评估工具和微型基准测试，证明这些工具和测试足以可靠高效地复现原始评估结果。

Feb, 2024

着眼决策感知和通用化的大规模语言模型工具使用

通过提出一种决策感知和具有一般化的工具使用框架（DEER），本文旨在增强开源LLMs在操作工具方面的能力。通过构建工具使用样本和新颖的工具采样策略，DEER在各个数据集上证明了其有效性和显著优于基准模型。

Feb, 2024

一个以用户为中心的评估大型语言模型的基准

我们提出了从用户角度对大型语言模型进行基准测试，旨在更好地反映实际用户需求，并且我们还构建了用户报告场景数据集以及对10个语言模型服务在满足用户需求方面的基准测试。

Apr, 2024

评估大型语言模型的系统调查与批判性综述：挑战、局限性与建议

大型语言模型（LLMs）在各个领域中表现出卓越的能力，但在实际应用之前对其进行彻底评估是至关重要的，以确保其可靠性。本文系统地审视了LLM评估过程中导致不一致性和不可靠评估的主要挑战和限制，并根据我们的批判性评估提出了观点和建议，以确保LLM评估具有可重现性、可靠性和稳健性。

Jul, 2024

超越指标：对大型语言模型评估框架变异性的批判性分析

本文探讨了当前大型语言模型评估框架的差异性和不足之处，填补了评估方法多样性所带来的研究空白。通过对不同评估方法的深入分析，提出了更为标准化和全面的评估机制，以提升自然语言处理领域的模型评估水平。研究发现，现有框架的改进将显著推动LLMs的性能评估和实际应用。

Jul, 2024

MTU-Bench：针对大型语言模型的多粒度工具使用基准

本研究解决了现有工具使用基准数据集在评估场景和评估成本方面的不足。通过提出名为MTU-Bench的多粒度工具使用基准，我们涵盖了五种工具使用场景，并采用基于预测结果和真实情况的评估指标，避免了高成本的评估方法。实验结果表明，MTU-Bench有效提升了大型语言模型的工具使用能力。

Oct, 2024