Jun, 2023

利用语言模型理解语言模型中的社交推理

TL;DR本研究通过创建一个新的社交推理基准,即 BigToM,来评估大型语言模型的社交推理能力,发现 GPT4 具有反映人类推理模式的理论思维能力,但不够可靠,而其他 LLM 则表现较差。