从无序和嘈杂计划痕迹中学习动作模型
本论文提出了一种利用自然语言处理和约束满足技术从文本描述中学习行动模型的方法,通过构建一种新型语言模型提取计划轨迹并建立一组约束条件来生成行动模型。实验结果表明这种方法是有效而高效的。
Feb, 2022
通过学习状态轨迹开始,本文探索了在未提供学习动作参数时的学习情况,定义了两个追踪质量级别,并提出了相应的算法。实验评估表明,提出的算法相对于现有的学习工具 FAMA,速度更快,可以处理更大的输入,并提供更接近参考模型的学习动作模型。
Feb, 2024
本文提供了一种新框架 Recplan,用于从部分观察到的原始图像轨迹中学习转换模型。通过考虑轨迹中的前面和后面的图像,我们学习原始观察的潜在状态表示,然后基于这样的表示构建转换模型。此外,我们提出了一种基于神经网络的方法,学习估计朝着给定目标观察的距离的启发式模型。基于学习的转换模型和启发式模型,我们实现了一个图像的经典规划器,并在实证中展示了我们的方法比在具有不完整观测的环境中学习视觉规划模型的最新方法更有效。
Nov, 2022
本文研究如何使智能代理能够在真实环境中自主行动,提出一种通过学习状态转换函数从而得到明确的 STRIPS 规则的方法,能够应对真实环境中嘈杂的或不完全的观察数据。模拟实验表明该方法能够学习有用的环境模型描述。
Oct, 2012
本文探讨发展在复杂世界中可以学习行动的代理程序的目标,并开发了一种概率关系计划规则表示,以紧凑地模拟有噪声,不确定性的行动效果,并展示了这种规则的有效学习方法。通过在简单规划领域和具有逼真物理的三维模拟块世界的实验,我们证明了这种学习算法使代理程序能够有效地模拟世界动态。
Oct, 2011
引入了一个针对具有连续状态和动作空间以及非高斯转移模型的随机域的模型学习和规划框架。该框架高效,因为只有在计划器需要它们时才估计局部模型;计划器集中于当前规划问题的最相关状态;计划器专注于信息最丰富和 / 或价值最高的动作。我们的理论分析显示了所提出方法的有效性和渐近最优性。在实验上,我们在模拟的多模式推动问题上展示了我们算法的有效性。
Jul, 2016
本文提出了一种新型的探索计划代理,它能够在没有专家跟踪或给定目标的情况下学习行动先决条件和效果,优化探索和行动模型学习,运用新的表示为 Lifted Linked Clauses 和一种新颖的探索行动选择方法,并在探索为中心的视频游戏场景中进行实证评估。
Mar, 2022
本文介绍了一种使用前向模型的行动计划方法,在离散动作空间中通过反向传播实现规划,使用参数化的动作向量和输入噪声,同时使用策略蒸馏方法,性能优于模型自由 RL 和离散计划方法,可以应用于离散和连续动作空间的模型控制任务。
May, 2017