Mar, 2024

OpenEval: 对中文语言模型在能力、对齐性和安全性方面进行基准测试

TL;DR开放评估是一个评估测试基地,以能力、对齐和安全等方面对中文大型语言模型进行基准测试,并发现了在常识推理、对齐和安全性等方面需要更多关注的问题。