Jul, 2023

超越显而易见:基于生活景象的语言模型推理能力评估 (LSR-Benchmark)

TL;DR本文介绍了 Life Scapes Reasoning Benchmark (LSR-Benchmark) 数据集,它是一个针对真实情境推理的新颖数据集,旨在弥补人工神经网络在日常背景下推理能力的差距,并测试了利用 gpt3.5-turbo 和 instruction fine-tuned llama 模型的推理性能。实验结果表明人类在理解日常生活方面仍然优于这些模型,这表明机器学习模型在理解日常人类生活方面仍然面临着挑战。