语言模型是否能作为基于文本的世界模拟器？

ACLJun, 2024

语言模型是否能作为基于文本的世界模拟器？

Can Language Models Serve as Text-Based World Simulators?

Ruoyao Wang, Graham Todd, Ziang Xiao, Xingdi Yuan, Marc-Alexandre Côté...

TL;DR当前文本基模型在作为文本世界模拟器方面的表现仍不可靠，需要进一步创新，本研究提供了新的见解和新的基准来追踪未来模型的发展。

Abstract

virtual environments play a key role in benchmarking advances in complex planning and decision-making tasks but are expensive and complicated to build by hand. Can current language models themselves serve as

virtual environments language models world simulators text-based simulators benchmark

发现论文，激发创造

大型语言模型是否能够很好地玩文本游戏？现状和开放问题

本技术报告针对大型语言模型 (ChatGPT 和 GPT-4)，探究它们在玩文字游戏方面的能力，实验证明 ChatGPT 表现与现有系统相比具有竞争力，但仍没有足够的智能去构建游戏世界模型、利用已有世界知识和推断游戏进程中的目标。这为人工智能、机器学习和自然语言处理交叉领域开辟了新的研究问题。

Apr, 2023

基于 GPT 的模型遇上仿真：如何高效地运用大规模预训练语言模型于仿真任务中

本文是第一篇关于利用大规模预训练语言模型（LLMs）进行科学模拟的研究，聚焦于四个建模和模拟任务，分别评估 LLMs 的预期优势和局限性，并为模型构建者提供实用指南，包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。

Jun, 2023

GenSim：通过大型语言模型生成机器人仿真任务

通过使用语言模型生成丰富的仿真环境和专家演示，在模拟数据上进行多任务策略训练，极大地增强了任务级泛化能力，并实现了对未见过的现实任务的强大转移能力。

Oct, 2023

记住过去，明确下一步怎么做

使用中等大小的大型语言模型（GPT-J 6B 参数），计划在科学世界中为模拟机器人实现 30 类目标，结果发现大语言模型在性能上优于强化学习，而且性能表现因任务而异。

Oct, 2023

ByteSized32：一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务

研究了语言模型在生成基于科学和常识推理任务的世界模型的能力，以生成基于任务的文本游戏解决方案作为问题。使用 32 款高度模板化的 Python 文本游戏和一套用于评估的 16 个未见过的文本游戏说明书，提出了一系列衡量模拟的有效性、合规性、可玩性、可赢性和与物理世界的对齐度的自动和手动度量标准，并展示了 GPT-4 在运行此项任务时产生可运行游戏的能力的单次评估结果，结果表明这是一项非常具有挑战性的任务，重点讨论了未来改进的方向，包括 GPT-4 表现出的能力，可以很好地模拟远近达到标准任务解决方案，并且随着模拟包含干扰物或偏离动作空间中的标准解决方案而性能下降。

May, 2023

利用预训练的大型语言模型构建和利用世界模型进行基于模型的任务规划

本研究引入了一种新的方法，使用 PDDL 语言构建显式世界模型，并利用预训练的大型语言模型作为 PDDL 和校验器等纠正反馈的接口，以提高计划问题的效率和准确性。在不涉及用户互动的情况下，通过验证 PDDL 模型的正确性，我们制定计划来解决复杂任务并取得成功。

May, 2023

语言引导的世界模型：一种基于模型的人工智能控制方法

安装概率世界模型到人工智能代理中，为人类与控制这些代理打开了一个高效的交流途径；我们开发了一种名为语言引导的世界模型（LWMs），通过阅读语言描述来捕捉环境动态，提高了代理的通信效率，同时允许人类用简洁的语言反馈在多个任务中同时改变行为。该研究证明了当前最先进的 Transformer 架构在该基准测试上表现不佳，激励我们设计更强大的架构。通过模拟展示了我们提出的 LWMs 的实用性，使代理能够在执行前生成和讨论计划，增强了代理的可解释性和安全性，并使其在真实环境中的性能提高了三倍，而无需在该环境中进行任何交互式经验的收集。

Jan, 2024

CityBench: 评估大型语言模型作为世界模型的能力

在这篇论文中，我们提出了 CityBench 作为第一个用于评估大规模语言模型在城市领域能力的系统性评估基准，通过构建 CitySim 来整合多源数据并模拟细粒度的城市动态，设计了 7 个任务用于评估 LLMs 作为城市规模世界模型在感知理解和决策制定方面的能力，在 13 个城市的 13 个知名 LLMs 上进行了广泛实验，结果表明 CityBench 的可扩展性和效果，并对未来城市领域 LLMs 的发展提供了启示。

Jun, 2024

基于大语言模型的对话式生成自动驾驶仿真场景

本文描述了一个支持扩展多模态交互的系统，通过使用大型语言模型 (LLMs) 将用户的英语语句映射到领域特定的代码，我们探索了 LLMs 在上下文敏感性方面捕捉演算发言者意图的程度。

Oct, 2023

评估大型语言模型作为生成式用户模拟器用于对话推荐

通过五项任务评估语言模型在对话推荐中模拟人类行为的效果，研究发现基准模拟器的评估可以揭示语言模型与人类行为的差异，并提供了模型选择和提示策略的见解。

Mar, 2024