Mar, 2022

从奖励中学习关系规则

TL;DR本文通过关系强化学习来理解认知系统如何选择在特定任务中有用的特征关系以及如何利用这些表达来有效地与环境交互。我们使用建立在 RRL 中开发的函数逼近器的简单模型来展示我们的方法的潜力,并在需要考虑日益增多的潜在关系的三个 Atari 游戏中进行了训练和测试。在每个游戏中,我们的模型能够选择适当的关系表达式,并逐步建立关系策略。我们探讨了本模型与关系和类比推理模型之间的关系,以及其限制和未来的研究方向。