Apr, 2024
超越准确性:评估大型语言模型的推理行为--调查研究
Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language
Models -- A Survey
TL;DR大型语言模型在推理任务中表现出色,但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究,深入探讨模型的推理过程,并调查评估语言模型推理行为的方法,发现其依赖于训练数据的表面模式和相关性,而非真正的推理能力。同时,我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述,我们旨在揭示大型语言模型内部复杂的推理过程。