学习完全可观察的非确定性计划领域的广义策略
本文介绍了一种结合自动学习和规划的方法来解决泛化计划问题,主要通过 Max SAT 表达式从已知实例的状态变迁中自动学习特征和抽象动作,并使用 fully observable 非确定性规划器生成泛化计划。实验结果展示了该方法的有效性。
Nov, 2018
本文开发了一种新的迭代深度优先搜索算法,专为 Fully Observable Non-Deterministic (FOND) planning 设计,在解决 FOND planning 任务和生成强周期策略方面表现出鲁棒性和效率。
Apr, 2022
此研究提出了一种替代方法来计算更具表现力的通用策略,该方法不需要样本计划或 QNP 计划程序。该方法可以用机器学习中的标准术语来描述,通过定义来自规划示例中的谓词的大但有限的功能池,并寻找用于将 “好” 与 “坏” 状态转换和目标与非目标分开的一小部分功能。然后,这将作为单个组合优化问题一起解决,用加权最大满足问题来表示。
Jan, 2021
这项研究介绍了一种全观测非确定性计划(FOND)的新方法,通过引入新颖的 FOND 感知启发式技术,在 17 个领域中,比其他 FOND 计划程序在 18 个综合基准套件中显著提高了性能。
Dec, 2023
该研究利用图神经网络 (GNNs) 解决传统规划域的泛化策略学习问题。结果表明,这种方法可以获得最优性和广义性之间的平衡,从而实现泛化性能更好的规划。
May, 2022
本文研究将目标识别扩展到具有完整可观察性和非确定性的计划领域模型中,重点是在使用线性时间逻辑(LTLf)和纯过去线性时间逻辑(PLTLf)表达的有限痕迹上识别目标。我们开发了第一种能够识别此类设置中目标的方法,并使用六个计划领域模型上的不同 LTLf 和 PLTLf 目标进行评估,实验结果表明我们的方法在不同的识别设置中识别时间上延长的目标是准确的。
Jun, 2023
我们研究可在完全可观察、非确定性领域(FOND)中使用线性时态逻辑有限轨迹(LTLf)表示的目标的尽力策略(又称计划)。我们提出了一种基于博弈论的技术,用于合成利用非确定性规划领域特性的尽力策略。我们在形式上证明了其正确性,并在实验中展示了其有效性,相对于基于将规划领域重新表达为通用环境规范的直接尽力合成方法,其可扩展性大大提高。
Aug, 2023
用继任特征学习策略基础,以解决具有非马尔可夫奖励规范的多个任务的广义问题,在有限状态自动机中描述的任务中,使用这些(子)策略的组合可以在无需额外学习的情况下生成最优解,与通过规划组合(子)策略的其他方法相比,本方法能达到全局最优性,即使在随机环境中也是如此。
Mar, 2024
本文介绍了使用有限状态自动机表示具有有限记忆的策略学习算法,具体探讨在部分可观测的 MDP 问题中,基于随机梯度下降的 VAPS 算法进行本地优化的通用有限状态自动机控制器的问题。并进一步讨论了在何种条件下随机梯度下降将优于精确梯度下降的问题,通过实证研究验证了该算法在补偿每个时间步上的不可观测性方面发挥了良好的效果。
Jan, 2013