从状态轨迹中学习规划行动模型
本文提出了一种基于 MAX-SAT 框架的方法,用于自动学习规划系统的领域模型,通过输入一组含有无序动作和噪声的计划迹线来输出最佳的动作模型,并通过系统实证评估证明了该方法的有效性
Aug, 2019
本文提出了一种新颖的方法,该方法从示例中学习 STRIPS 行动模型,并将其编译为一个经典的规划任务。编译方法对可用输入知识的不同量具有灵活性,并且可以接受部分指定的行动模型,并且可以用于验证计划执行的观察是否遵循给定的 STRIPS 行动模型,即使该模型不是完全指定。
Mar, 2019
本文研究如何使智能代理能够在真实环境中自主行动,提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法,能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。
Oct, 2012
该论文提出了一个学习状态和动作抽象的框架,利用带有语言注释的示范数据来自动发现符号化和抽象化的动作空间,并在此基础上引出一个潜在的状态抽象。框架包括三个阶段:恢复对象级和动作概念,学习状态抽象、抽象动作的可行性和转移模型,以及对抽象动作应用低级策略。在推断过程中,框架首先根据潜在的转移和可行性函数制定抽象动作计划,然后利用低级策略优化高级计划。该框架可以泛化到涉及新颖对象实例和环境、未见过的概念组合以及需要较长规划范围的任务场景中。
May, 2024
本论文提出了一种利用自然语言处理和约束满足技术从文本描述中学习行动模型的方法,通过构建一种新型语言模型提取计划轨迹并建立一组约束条件来生成行动模型。实验结果表明这种方法是有效而高效的。
Feb, 2022
该研究提出了一种学习方法,用于将上下文相关的顺序指令映射到动作,并设计出 SESTRA 算法来训练最大化即刻期望奖励的模型,从而实现单步奖励观测。同时,该算法考虑到交互的历史和世界状态的影响,通过实验表明,相较于逻辑表示方法,提出的算法在 SCONE 领域中得到了 9.8%-25.3% 的绝对准确率的提升。
May, 2018