May, 2024

基于蒙特卡罗树搜索指导的大型语言模型生成代码世界模型

TL;DR通过利用蒙特卡洛树搜索策略(GIF-MCTS)进行生成、改进和修复,我们成功地解决了利用大型语言模型生成代码世界模型(Code World Models)的挑战,并且在多个基准测试中超越了其他方法,在模型为基础的强化学习方面取得了显著的样本效率和推理速度提升。