Apr, 2024

大型语言模型的社会规范测量

TL;DR我们提出了一个新的挑战,以检验大型语言模型是否理解社会规范。我们的数据集需要对社会规范有基本的理解才能解决,它包含了 402 种社会规范技能和 12,383 个问题,涵盖了从意见和争论到文化和法律的广泛社会规范。我们根据 K-12 课程设计了数据集,使得能够直接将大型语言模型的社会理解与人类,特别是小学生进行比较。尽管先前的研究在我们提出的基准测试上几乎随机准确,但最近的大型语言模型如 GPT3.5-Turbo 和 LLaMA2-Chat 能够显著提高性能,仅稍微低于人类的表现。然后,我们提出了一种基于大型语言模型的多智能体框架,以提高模型理解社会规范的能力。这种方法进一步改进了大型语言模型与人类的水平相当。考虑到大型语言模型在现实应用中的日益普及,我们的发现尤为重要,为未来的改进提供了独特的方向。