Feb, 2025
Text2World:大型语言模型符号世界模型生成的基准测试
Text2World: Benchmarking Large Language Models for Symbolic World Model
Generation
TL;DR本研究解决了在从文本描述生成符号世界模型时,大型语言模型(LLM)存在的评估随机性、依赖间接指标和领域范围有限等问题。我们推出了一个新的基准Text2World,采用多标准、基于执行的评估方法,发现经过大规模强化学习训练的推理模型表现优于其他模型,但即便是最优秀的模型在世界建模方面仍能力有限。我们探索了包括测试时扩展和代理训练在内的多种策略,以期提高LLM的世界建模能力。