Nov, 2023

个性测试是否适用于大型语言模型?

TL;DR大型语言模型(LLMs)的人类化行为在文本交互中愈发明显,尝试使用原本为人类设计的测试来评估模型的各种特性已变得流行起来。然而,需要仔细调整这些测试,以确保测试结果在人类亚群中的有效性。因此,不清楚不同测试的有效性能够推广到LLMs的程度。本研究提供证据表明,LLMs对个性测试的反应与典型人类反应存在系统偏差,意味着这些结果不能像人类测试结果一样进行解释。具体来说,LLMs经常同时肯定地回答出了反向编码项目(例如,“我是内向的”与“我是外向的”)。此外,设计用于“引导”LLMs模拟特定的个性类型的不同提示的变化并不遵循人类样本中五个独立个性因素的明确分离。考虑到这些结果,我们认为在对类似LLMs“个性”这样定义模糊的概念进行强有力的结论之前,应更加关注对LLMs的测试有效性。