Jun, 2024

用大型经验研究代替人类法官?跨20个NLP评估任务

TL;DR评估NLP模型时,使用LLM-generated判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的20个NLP数据集的JUDGE-BENCH,并对11个当前的LLM进行全面评估,涵盖公开权重和专有模型,以验证其模拟注释的能力。我们的评估结果表明,每个LLM在与人工判断的相关性方面在不同数据集上存在很大的差异。我们得出结论,LLM尚不具备系统替代NLP中的人类评审员的能力。