BriefGPT.xyz
大模型
Ask
alpha
关键词
llm-generated judgments
搜索结果 - 1
用大型经验研究代替人类法官?跨 20 个 NLP 评估任务
评估 NLP 模型时,使用 LLM-generated 判断取而代之人为判断的趋势日益增长。我们提供了一个由人工注释的 20 个 NLP 数据集的 JUDGE-BENCH,并对 11 个当前的 LLM 进行全面评估,涵盖公开权重和专有模型,
→
PDF
9 days ago
Prev
Next