Jun, 2024

用大型经验研究代替人类法官?跨 20 个 NLP 评估任务

TL;DR评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个 LLM 在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM 尚不具备系统替代 NLP 中的人类评审员的能力。