Nov, 2023

火焰:中国大型语言模型价值对齐基准测试

TL;DR该研究论文提出了一个高度对抗性的基准测试叫做 Flames,用于评估大型语言模型与人类价值观的一致性,并揭示了现有测试无法有效发现这些模型的安全漏洞。通过与复杂场景和恶意方法相结合的对抗性提示,研究者发现所有评估的大型语言模型在 Flames 测试中表现较差,尤其是在安全性和公平性方面。为了高效评估新模型,他们开发了一个多维度评分器,可以准确评分多个大型语言模型。Flames 基准测试已经公开可用。