Apr, 2024

思路规划:以启发式引导的大型语言模型问题解决方案

TL;DR在本研究中,我们使用基于规划的方法结合部分可观察马尔可夫决策过程(POMDPs)来解决多步骤的问题,并通过 POMCP 在线求解器在 24 点游戏任务上展现出了 89.4% 的优越成功率,同时也提供了比之前使用的固定树搜索更好的任意时间性能。