Feb, 2024

ToMBench:大型语言模型中的心智理论基准测试

TL;DR大语言模型(LLMs)在理解和归因自我和他人的心智状态方面尚未达到人类水平,因此我们引入 ToMBench 评估框架以实现对 LLMs 的 ToM 能力的高效和有效评估。