Nov, 2022

具有预测处理相邻策略优化的高效深度强化学习

TL;DR人类的大脑通过预测性处理的方式,以较小的资源实现了有效的控制策略,该研究利用预测性处理理论,建立了一个可以预测自身感观状态的循环神经网络模型在强化学习中的应用,并证明该模型在多个游戏中的表现,优于同等时间内的其他同类模型以及人类玩家。