May, 2023

ByteSized32:一种用于生成文本游戏的特定领域世界模型的语料库和挑战任务

TL;DR研究了语言模型在生成基于科学和常识推理任务的世界模型的能力,以生成基于任务的文本游戏解决方案作为问题。使用 32 款高度模板化的 Python 文本游戏和一套用于评估的 16 个未见过的文本游戏说明书,提出了一系列衡量模拟的有效性、合规性、可玩性、可赢性和与物理世界的对齐度的自动和手动度量标准,并展示了 GPT-4 在运行此项任务时产生可运行游戏的能力的单次评估结果,结果表明这是一项非常具有挑战性的任务,重点讨论了未来改进的方向,包括 GPT-4 表现出的能力,可以很好地模拟远近达到标准任务解决方案,并且随着模拟包含干扰物或偏离动作空间中的标准解决方案而性能下降。