Nov, 2022

LMentry: 基本语言任务的语言模型基准测试

TL;DRLMentry 是一个基准测试,它专注于一组对于人类来说比较容易的任务,可以快速测试大型语言模型的能力和鲁棒性,该测试揭示了不同类型的失败情况,为大型语言模型的评估提供了一种新的方法。