大型语言模型仍无法规划 (面向规划和变化推理的LLM基准测试)

Jun, 2022

大型语言模型仍无法规划 (面向规划和变化推理的LLM基准测试)

Large Language Models Still Can't Plan (A Benchmark for LLMs on Planning and Reasoning about Change)

Karthik Valmeekam, Alberto Olmo, Sarath Sreedharan, Subbarao Kambhampati

TL;DR该研究提出了一种可扩展的评估框架来测试LLMs在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于LLMs推理能力的夸张的说法，并展示了GPT-3、Instruct-GPT3和BLOOM对这些任务的表现不佳。

Abstract

The recent advances in large language models (LLMs) have transformed the field of natural language processing (NLP). From GPT-3 to PaLM, the state-of-the-art performance on natural language tasks is being pushed

发现论文，激发创造

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

思维链中枢: 评估大型语言模型推理性能的持续努力

提出了一个开源评估套件链式思维中心，用于评估大型语言模型在多步推理能力方面的性能，并针对一系列有挑战性的应用场景提供基准测试，目前的结果表明，模型规模与推理能力密切相关，需要更多开源社区的努力来构建更好的基础模型和探索RLHF。

May, 2023

大型语言模型不是抽象推理器

本论文评估了最新的Large Language Models在抽象推理任务上的表现，并发现它们相比于其他自然语言处理任务的表现非常有限。作者探讨了这种差异的原因，并提出了一个新的基准，用于评估自然语言处理中的抽象推理任务。

May, 2023

大型语言模型能成为良好的路径规划器吗？空间-时间推理的基准和研究调查

大型语言模型在路径规划和空间推理方面取得了显著的成功，少样本的GPT-4通过不同的提示方法在空间推理方面表现出了潜力，而微调的LLMs则在小环境或有障碍物的情况下难以推广。

Oct, 2023

面向关系推理的LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

生成人工智能时代下的大型语言模型评估标准的不足

通过以人、过程和技术为视角，功能性和安全性为支柱，使用我们的统一评估框架，对23个最先进的LLM基准进行了研究，发现了显著的限制，并强调了在人工智能进步的背景下，标准化方法、监管确定性和伦理指南的迫切需求，以及通过协作努力发展被广泛接受的基准和增强人工智能系统融入社会的重要性。

Feb, 2024

超越准确性：评估大型语言模型的推理行为--调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

LLMs错误的简单问题

我们引入了一个综合的语言基准测试来评估大型语言模型在逻辑推理、空间智能和语言理解等领域的局限性。通过一系列简单的问题，它揭示了知名模型在执行人类轻松处理的任务时存在的显著限制。它还强调了提示工程的潜力以缓解一些错误，并强调了更好的训练方法的必要性。我们的研究结果强调了将大型语言模型与人类推理和常识连接起来的重要性，并强调了人在企业应用中的必要性。我们希望这项工作为未来的研究提供了增强新模型的实用性和可靠性的途径。

May, 2024

探索和基准测试大型语言模型的规划能力

提高大型语言模型的规划能力，研究领域包括基于上下文学习、微调，以及在未知领域的性能评估。

Jun, 2024

LLMs仍然无法规划；LRMs能做到吗？OpenAI的o1在PlanBench上的初步评估

本研究针对当前大语言模型(LLMs)在规划能力上的不足，评估了OpenAI的新模型o1（草莓）的表现。通过在PlanBench基准上的实证分析，发现o1在规划能力上有显著提升，但仍未达到饱和状态，且在准确性和效率等方面仍需进一步研究以确保其可靠性。

Sep, 2024