Jun, 2024

大型语言模型是否表现出认知失调?研究揭示观点和陈述答案之间的差异

TL;DR我们通过转化问题、多选题和直接文本补全的实验评估,研究了大型语言模型(LLMs)在因果推理、不确定性方面能力的量化,结果显示 LLMs 的表态答案与预测真实信念存在显著差异,提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性,对于 LLMs 能力的评估方法仅提供了部分信息,需要进一步研究其能力的广度和本质。