Jul, 2023

SuperCLUE:一个全面的中文大语言模型基准

TL;DR通过提出综合性的中文基准 SuperCLUE,我们展示了现有评估模型性能的精确性不足以反映用户偏好的情况,并且 GPT-4 可以可靠地自动评估用户对中文开放性问题的偏好。