Nov, 2023

评估大型语言模型在心理测量工具上的可靠性

TL;DR大型语言模型(LLMs)在社会科学研究中的自然语言理解任务的通用性使其备受青睐。本研究探讨了当前的提示格式是否能使 LLMs 以一致且稳健的方式提供回答,结论发现即使对选项顺序进行简单扰动也足以显著降低模型的问答能力,且大多数 LLMs 在否定一致性方面表现低下,提示目前的普遍做法无法准确捕捉模型的认知,我们讨论了改进这些问题的可能替代方案。