Nov, 2023
评估大型语言模型在心理测量工具上的可靠性
You don't need a personality test to know these models are unreliable:
Assessing the Reliability of Large Language Models on Psychometric
Instruments
TL;DR大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使LLMs以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数LLMs在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。