自主对抗性语言游戏增强 LLM 推理能力

Apr, 2024

自主对抗性语言游戏增强 LLM 推理能力

Self-playing Adversarial Language Game Enhances LLM Reasoning

Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai...

TL;DR在一个叫做 Adversarial Taboo 的对抗性语言游戏中，我们探索了大型语言模型（LLMs）的自我训练过程。通过强化学习和自我博弈，我们观察到 LLMs 在广泛的推理基准上表现出统一的提升，并且通过迭代采用自我博弈过程可以不断提升 LLM 的推理能力。

Abstract

We explore the self-play training procedure of large language models (LLMs) in a two-player adversarial language game called adversarial taboo

self-play training large language models adversarial taboo reasoning ability target words

发现论文，激发创造

语言模型的战略推理

使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

May, 2023

实体演绎竞技场：探索 LLM 的对话推理和规划能力的游乐场

大语言模型在回答清楚的问题方面非常有效，但面对模糊查询时会表现不可预测且产生错误的输出，因此需要开发能够提出澄清问题来解决模糊性的智能代理。本文提供了一个评估框架，通过问法官一系列问题来推断一个未知的实体并评估语言模型的会话推理和规划能力，并对不同的语言模型进行系统评估。结果发现，像 GPT-4 这样的强大语言模型在这个任务上远远超过人类玩家。同时我们还使用行为克隆（BC）来研究较弱模型是否能够模仿强模型并在只使用强模型的演示数据或领域的情况下进行泛化。最后，我们建议使用强化学习来通过游戏过程来提高 Vicuna 模型的推理和规划能力，从而显著提高性能。希望这个问题能为如何训练自主代理在模糊环境中更智能地行为提供见解。

Oct, 2023

GTBench: 揭示 LLMs 的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

通过多智能体辩论提高语言模型的事实性和推理能力

该论文介绍了一种新方法，即通过多个语言模型实例的反复辩论和推理过程，以达成一个共同的最终答案，从而改善语言响应的表现，特别是在数学和策略推理方面，改善了已有模型中一些常见问题，如虚假答案和幻觉现象，并有望显著提高大型语言模型的性能和开拓语言生成和理解领域。

May, 2023

提升大规模语言模型在狼人杀游戏中的推理能力

本文提出了一种创新的框架，将大型语言模型（LLMs）与外部思考器模块相结合，以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构，其中 LLMs 处理直觉性的 System-1 任务，而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外，我们通过与思考器集成来调优 6B LLM，以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。

Feb, 2024

利用语言模型进行具身推理的协作

本文探究将强化学习代理人和大规模语言模型相结合，实现在复杂环境中的推理和泛化的能力，通过预训练语言模型作为规划器，简单的合成体智能作为行动器，和与规划器通信的汇报器这三部分，展示这个系统在零 - shot 泛化的任务中的表现，并且讨论了其失败情况以及组件使用增强学习的培训任务。

Feb, 2023

LLM 作为主脑：大型语言模型的战略推理综述

本文综述了大规模语言模型（LLMs）在战略推理中的当前状况和机遇，战略推理是一种复杂的推理形式，需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标，强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献，提供系统综述，凸显战略推理作为一种关键认知能力的重要性，并提供未来研究方向和潜在改进的见解。

Apr, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

LLM-Deliberation：用互动多智能体协商游戏评估 LLMs

使用可评分的协商游戏作为新的评估框架，系统化的零样本链式思考提示能够展示大型语言模型在协商中的能力和绩效差距。

Sep, 2023

LLMs 能否通过程序在复杂环境进行推理？

大型语言模型（LLMs）在解决程序推理问题方面显示出了出色的能力。通过引入 “reasoning in the wild” 任务并使用一个包含详细解决方案的大型策略引导轨迹数据集，我们在更真实的场景中评估了 LLMs 的推理能力，揭示了其存在的关键限制。

Jun, 2024