BALROG：评估智能LLM和VLM游戏推理的基准

Nov, 2024

BALROG：评估智能LLM和VLM游戏推理的基准

BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Davide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk...

TL;DR本研究针对大语言模型（LLM）和视觉语言模型（VLM）在复杂动态环境中的不足，提出了BALROG基准，用于评估其在多样化游戏中的智能能力。该基准通过细致的性能指标，对当前流行的LLM和VLM进行广泛评估，结果显示这些模型在简单任务中表现尚可，但在更具挑战性的任务中明显受限，尤其是在视觉决策方面的缺陷显著。此工作为智能领域的未来研究和开发提供了一个开放且易于使用的基准。

Abstract

Large Language Models (LLMs) and Vision Language Models (VLMs) possess extensive knowledge and exhibit promising reasoning abilities; however, they still struggle to perform well in complex, dynamic environments.

发现论文，激发创造

基于文本的RL代理与常识知识：新挑战、环境和基准

本文研究了RL智能体如何在具备通识知识的情况下进行决策。通过设计新的基于文本的游戏环境，实现了一种感知建模的系统，同时，也为该环境提出了多个基线RL智能体，这些智能体能通过动态检索ConceptNet中相关的通识知识，实现了更好的表现。

Oct, 2020

SPRING: GPT-4通过学习论文和推理胜过强化学习算法

提出了一种使用大型语言模型的新方法——SPRING框架，通过读取游戏的原始学术论文，利用所学知识进行推理和游戏，探讨了该方法在Crafter开放世界环境下的应用以及其在完成高级轨迹上的潜力。

May, 2023

MAgIC: 大型语言模型驱动的多智能体在认知、适应性、合理性和协作方面的基准测试

这项研究介绍了一个专门用于评估大型语言模型在多主体环境中能力的基准测试框架，通过游戏和博弈论场景来创建不同的测试环境，并利用概率图模型方法增强模型的导航能力，最终量化评估了七种不同大型语言模型的能力，发现最强模型GPT-4和最弱模型Llama-2-70B之间存在三倍的能力差距，同时证实了概率图模型增强了所有模型的能力，平均提高了50%。

Nov, 2023

LMRL Gym：基于语言模型的多轮强化学习基准

大型语言模型和强化学习的协作为创建目标导向代理提供了潜力，但需要稳定可靠的强化学习算法。本研究引入了LMRL-Gym评估多轮RL针对LLMs的基准，以及一个包含基本工具包的开源研究框架，用于开始进行多轮RL的离线值基和策略基RL方法。该基准由8个不同的语言任务组成，需要多轮语言交互，涵盖开放对话和文本游戏的多种任务。

Nov, 2023

AgentQuest: 一个模块化的基准测试框架，用于衡量和提升LLM代理的进展

通过构建可扩展的模块化基准和评估指标，提出了AgentQuest框架用于追踪和改进大规模语言模型代理在解决复杂多步骤推理任务中的性能。

Apr, 2024

GameBench：评估LLM代理的战略推理能力

使用大型语言模型在游戏中评估策略推理能力的跨领域基准(GameBench)显示，虽然大多数测试模型并不及人类水平，但对策略推理能力的两种框架（CoT和RAP）能够提高分数。

Jun, 2024

LogicGame：基准测试大型语言模型的规则基础推理能力

本研究针对大型语言模型在规则理解和执行能力评估方面的不足，提出了一个新的基准测试工具LogicGame。该工具通过多样化的游戏场景，强调依据预定义规则进行推理和规划的能力，发现了现有模型在规则基础推理方面的显著缺陷，从而推动了对其决策系统的改进。

Aug, 2024

LogicGame：大语言模型基于规则推理能力的基准测试

本研究针对大语言模型（LLMs）在基于规则的推理和计划执行能力评估的不足，提出了LogicGame基准测试。该方法通过设定多样化游戏场景，评估模型对规则的理解、执行及规划能力，并发现其在这些方面存在显著不足，具有重要的实践价值。

Aug, 2024

ING-VP：多模态大语言模型尚无法玩简单的基于视觉的游戏

本研究解决了现有多模态基准在评估图像中基于空间关系的多步骤规划能力方面的不足。提出的ING-VP基准专门设计来评估多模态大语言模型的空间想象力和多步骤推理能力，包含6种游戏和300个关卡。评估结果显示，表现最好的模型Claude-3.5 Sonnet的平均准确率仅为3.37%，揭示了当前模型在复杂空间推理和规划中的局限性。

Oct, 2024

TMGBench：评估大型语言模型战略推理能力的系统性游戏基准

本研究解决了评估大型语言模型(LM)战略推理能力的现有基准覆盖范围有限、情境缺乏多样性的问题。TMGBench引入了全新的游戏类型和情景，采用合成数据生成方式，构建出多样化的、高质量的故事化游戏。研究发现流行的LM在理性推理、一致性及心智理论等方面存在不足，同时显示TMGBench在评估现代模型时的挑战性。

Oct, 2024