利用大型语言模型进行 K 级推理

Feb, 2024

K-Level Reasoning with Large Language Models

Yadong Zhang, Shaoguang Mao, Tao Ge, Xun Wang, Yan Xia...

TL;DR通过提出一种名为 “K 级推理” 的新型推理方法，我们在大型语言模型中加强了动态情境中的决策制定能力，并为动态推理能力的评估设定了一个坚实的定量基准。

Abstract

While large language models (LLMs) have demonstrated their proficiency in complex reasoning tasks, their performance in dynamic, interactive, and competitive scenarios - such as business strategy and stock market analysis - remains underexplored. To bridge this gap, we formally explore

large language models dynamic reasoning game theory decision-making k-level reasoning

发现论文，激发创造

LLM 作为主脑：大型语言模型的战略推理综述

本文综述了大规模语言模型（LLMs）在战略推理中的当前状况和机遇，战略推理是一种复杂的推理形式，需要理解和预测多智能体环境中对手行为并相应调整策略。本文探讨了与 LLMs 相关的战略推理的范围、应用、方法论和评估指标，强调了该领域蓬勃发展和跨学科方法对决策性能的增强。该文旨在系统梳理和澄清有关此主题的分散文献，提供系统综述，凸显战略推理作为一种关键认知能力的重要性，并提供未来研究方向和潜在改进的见解。

Apr, 2024

通过知识图谱集成协作的强化提示型 LLM 推理方案

利用大型语言模型 (LLMs) 和知识图谱 (KG) 的协作训练方法，本研究在知识图谱的指导下，通过迭代探索和选择性地检索任务相关的知识子图来支持推理，使得 LLMs 能更可靠地进行基于知识的推理，并同时明确阐述推理过程，实验结果表明本方法在多个数据集上显著改进，尤其在 QALD10 数据集上相对于最佳基线和最先进的方法提高了超过 10%，为今后的知识图谱和大型语言模型融合研究提供了有价值的参考，提升 LLMs 在解决复杂问题上的能力。

Feb, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024

语言模型的战略推理

使用预训练的大型语言模型，并通过有限的示例进行引导，使智能代理能够进行战略推理和协商，而不需要任何额外的训练或微调。

May, 2023

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

GTBench: 揭示 LLMs 的战略推理限制：基于博弈论评估

通过博弈论任务以及与其他模型的比赛来评估大型语言模型在竞争环境中的推理能力，研究发现大型语言模型在游戏场景中的表现因任务类型而异，然而，开源的模型相较于商业模型在复杂游戏中表现不佳。

Feb, 2024

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

超越准确性：评估大型语言模型的推理行为 -- 调查研究

大型语言模型在推理任务中表现出色，但是它们的推理能力深度尚不确定。本文通过综述超越任务准确性的研究，深入探讨模型的推理过程，并调查评估语言模型推理行为的方法，发现其依赖于训练数据的表面模式和相关性，而非真正的推理能力。同时，我们指出需要进一步研究人类推理与语言模型推理之间的关键差异。通过此综述，我们旨在揭示大型语言模型内部复杂的推理过程。

Apr, 2024

评估大型语言模型的推理能力

大型语言模型（LLMs）的发展促使人们对其推理和问题解决能力产生了更大的兴趣。本研究调查了几种 LLMs 是否能够解决认知科学文献中一种经典类型的演绎推理问题。研究发现，这些被测试的 LLMs 在传统形式上解决这些问题的能力有限。我们进行了后续实验，探究了更改展示格式和内容是否能改善模型性能。尽管我们发现了条件之间的绩效差异，但总体性能并未提高。此外，我们还发现性能与展示格式和内容以出人意料的方式相互作用，与人类表现有所不同。总的来说，我们的结果表明 LLMs 具有独特的推理偏见，其只能部分预测人类的推理表现。

Sep, 2023

知识增强大型语言模型的原则框架

这篇论文介绍了一个严格设计的框架，用于创建能够有效锚定知识并采用闭环推理过程的大型语言模型，以提升其进行深入分析的能力，同时解剖了该框架的组成部分对模型性能的贡献，从而为改进推理能力提供了理论保证。

Nov, 2023