Jun, 2024

CRiskEval:中文大型语言模型多级风险评估基准数据集

TL;DR我们提出了 CRiskEval,这是一个精心设计的中文数据集,旨在评估大型语言模型(LLMs)中固有的风险倾向,以便进行积极的准备。通过多项选择问答方式,我们定义了一个包括 7 种前沿风险和 4 个安全级别的新的风险分类法,并对问题答案进行了精细标注,以建立每个 LLM 的细粒度前沿风险概况。CRiskEval 的广泛评估揭示了一项惊人的发现:大多数模型表现出超过 40% 的风险倾向,并且随着模型规模的增加,对紧急自持、权力追求和其他危险目标的倾向逐渐增加。