Nov, 2023

大型语言模型中的逻辑谜题解决评估:基于扫雷案例研究的洞察

TL;DR我们的研究引入了一种新的任务 -- 扫雷,旨在测试 LLMs 在陌生格式的任务中的推理和规划能力;我们的实验证明,尽管 LLMs 具备完成该任务所需的基本能力,但它们在将这些能力整合成解决扫雷问题所需的连贯的多步骤逻辑推理过程方面存在困难。这些发现强调了进一步研究 LLMs 推理能力及探索更复杂的 AI 推理和规划模型的必要性。