Jun, 2024

ToolBeHonest: 一个多层次幻觉诊断基准测试工具,用于帮助扩展的大型语言模型

TL;DR通过引入综合诊断基准 ToolBH,评估工具增强型大型语言模型 (LLMs) 的幻觉问题,考虑深度和广度两个维度,通过多层次的诊断流程和三种场景进行评估,结果显示 ToolBH 基准的挑战性,更大的模型参数并不保证更好的性能,训练数据和响应策略也至关重要,在模型错误中,主要原因是任务可解性的评估,开放权重模型在冗长回复中性能下降,而专有模型在更长推理中表现出色。