Mar, 2023

通过调整规划模型学习在开放世界中的操作

TL;DR在开放世界中,我们介绍了一个适应新颖性的规划领域模型的方法,通过检测行动执行的观察值和环境模型的预期值之间的差异来推断新颖性的存在,并通过启发式导向的模型改变搜索来修订模型。我们在标准的强化学习基准CartPole问题上进行实证评估,结果表明我们的方法可以快速且可解释地处理一类新颖性。