Oct, 2024

MTU-Bench:针对大型语言模型的多粒度工具使用基准

TL;DR本研究解决了现有工具使用基准数据集在评估场景和评估成本方面的不足。通过提出名为MTU-Bench的多粒度工具使用基准,我们涵盖了五种工具使用场景,并采用基于预测结果和真实情况的评估指标,避免了高成本的评估方法。实验结果表明,MTU-Bench有效提升了大型语言模型的工具使用能力。