Jul, 2023
超越显而易见:基于生活景象的语言模型推理能力评估 (LSR-Benchmark)
Beyond the Obvious: Evaluating the Reasoning Ability In Real-life Scenarios of Language Models on Life Scapes Reasoning Benchmark~(LSR-Benchmark)
Zhouhong Gu, Zihan Li, Lin Zhang, Zhuozhi Xiong, Sihang Jiang...
TL;DR本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集,它是一个针对真实情境推理的新颖数据集,旨在弥补人工神经网络在日常背景下推理能力的差距,并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型,这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。