Dec, 2022

True Detective: 深度 Abductive Reasoning 基础模型的挑战性基准测试

TL;DR本研究提出了一项包含 191 个长篇神秘故事的基准测试,旨在评估大型语言模型在推理方面的性能,结果显示最新的 GPT 模型在这一基准测试中的正确率为 28%,而人类的正确率为 47%,这表明大型语言模型在推理能力方面仍存在显著差距。