实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

Oct, 2023

实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs

Yizhe Zhang, Jiarui Lu, Navdeep Jaitly

TL;DR大语言模型在回答清楚的问题方面非常有效，但面对模糊查询时会表现不可预测且产生错误的输出，因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架，通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力，并对不同的语言模型进行系统评估。结果发现，像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆（BC）来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后，我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力，从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。

Abstract

large language models (LLMs) are currently effective at answering questions that are clearly asked. However, when faced with ambiguous queries they can act unpredictably and produce incorrect outputs. This unders

large language models ambiguous queries intelligent agents conversational reasoning reinforcement learning

发现论文，激发创造

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

大型语言模型仍无法规划 (面向规划和变化推理的 LLM 基准测试)

该研究提出了一种可扩展的评估框架来测试 LLMs 在行动和变化推理方面的能力，从而证明现有的推理基准测试是简单化的，无法支持关于 LLMs 推理能力的夸张的说法，并展示了 GPT-3、Instruct-GPT3 和 BLOOM 对这些任务的表现不佳。

Jun, 2022

关于大型语言模型的规划能力（一项带有提议基准的关键调查）

研究了通用 Web 语料库上训练的语言模型的计划能力，开发了基于国际计划竞赛领域的基准套件，在自治、启发式和人机协作模式下对 LLM 进行了评估，发现自主生成可执行计划的能力非常有限，只有约 3% 的成功率。

Feb, 2023

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

大型语言模型中出现的欺骗能力

该研究揭示了现有的大型语言模型存在伪装策略的能力，分析了它们在复杂欺骗场景中的表现，并发现引发机器心理学领域的之前未知的机器行为。

Jul, 2023

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

大型语言模型的规划能力 - 一项关键调查

本文旨在研究 LLLms 在常识规划任务中的规划能力，通过在国际计划竞赛中生成一系列实例，并评估 LLMs 在自主规划和启发式两种不同模式下的表现，发现 LLMs 在自主规划方面的表现非常有限，但在启发式模式下，LLMs 生成的计划可以改善其它智能计划器的搜索过程并提供反馈以进一步验证计划质量。

May, 2023

评估具有数据库问答功能的 LLM 智能体中推理和行动的整合

本研究介绍了一个新的长格式数据库问答数据集，旨在评估大型语言模型（LLMs）与 SQL 解释器的互动。研究发现即使对于最先进的 GPT-4 模型，这个任务也存在巨大挑战。我们提出并评估了两种互动策略，并对互动过程中的各个阶段进行了细致分析。一个重要发现是确定了两个主要瓶颈，即规划能力和生成多个 SQL 查询能力。为了解决准确评估答案质量的挑战，我们引入了一个多代理评估框架，模拟学术同行评审过程，增强了我们评估的精确性和可靠性。该框架使我们能够更加细致地了解当前 LLMs 在复杂检索和推理任务中的优点和局限性。

Nov, 2023

将你的资金投到你的口中：在拍卖竞技场中评估 LLM 代理的战略规划与执行

大型语言模型可以在复杂环境中模拟人类行为，在竞争环境中展示了高级推理技能，需要评估环境来探测战略推理、竞争动态场景中的长期规划，介绍了 AucArena 作为一个评估 LLMs 的新型模拟环境，在竞拍中证明了通过简单的提示，LLMs 确实展示了参与竞拍所需的许多技能，还发现对 LLM 代理进行自适应和观察过去竞拍策略的明确鼓励，可以提高这些技能的准确性，这些结果表明使用 LLM 代理模拟复杂社交动态的潜力，尤其在竞争环境中，但我们也观察到个体 LLMs 的能力存在相当大的变异性，值得注意的是，即使是最先进的模型（GPT-4）有时也会被启发式基准线和人类代理超越，这突显了 LLM 代理设计中进一步提高和我们的模拟环境在测试和改进代理体系结构中的重要作用。

Oct, 2023