Jun, 2024

语言模型可以从环境反馈中推断经典计划器的动作语义

TL;DR提出使用经典规划和大型语言模型共同实施领域归纳、学习和验证动作的前后条件,利用 LLM 推理来启发性地完成经典规划器发出的部分计划,并根据执行后的环境反馈用逻辑语言推断领域的语义规则。通过对 7 个环境的分析表明,使用 LLMs 作为启发性规划器和规则预测器仅需一个专家精心策划的示例计划,就能够比随机探索更少的执行步骤和环境重置,并同时恢复领域的基本行动语义。