Jul, 2023

CValues: 从安全到责任,衡量中国大型语言模型的价值

TL;DR本文提出了CValues,首个用于评估大型语言模型(LLMs)人类价值观一致性的中文评估基准,该基准通过在十个场景中手动收集对抗性安全提示和由专业专家引导的八个领域的责任提示来衡量LLMs的一致性能力。研究发现,虽然大部分中文LLMs在安全方面表现良好,但在责任方面还有相当大的改进空间。自动评估和人工评估在评估不同方面的人类价值观一致性方面都是重要的。