COLINGMar, 2024

超越静态评估:评估 AI 助手 API 调用能力的动态方法

TL;DR大型语言模型和 AI 助手通过 API 调用的能力取得了显著的进展,然而现有的评估方法可能具有误导性,我们提出了自动动态评估方法(AutoDE)来评估助手的 API 调用能力,不涉及人类的参与。实验证明 AutoDE 可以发现静态评估所遗漏的错误,并与人类评估更加接近。通过对四个 AI 助手使用我们构建的基准测试,我们的方法与人类评估具有 0.99 的相关性,比传统的静态评估提高了 8%。