Mar, 2017

马尔可夫决策过程中因果信息和价值的统一贝尔曼方程

TL;DR研究人工智能代理和其环境的交互,探讨了在信息理论限制下如何通过强化学习算法使代理能够在无限时间范围内获得最大化的预期回报。首次提出了环境和代理之间因果信息的贝尔曼递归方程,与值函数的贝尔曼递归方程结合使用。