Jun, 2024

BiGGen Bench:一种用于精细评估语言模型的基准

TL;DR通过 BiGGen Bench 的引入,对 77 个不同任务中的九种语言模型的生成能力进行了全面评估,并借助实例特定的评估标准来模拟人类评估的微妙辨别。该研究公开提供了代码、数据和评估结果。