May, 2019

关于价值函数和智能体-环境边界

TL;DR本文针对强化学习中函数逼近问题的不同解决方式所带来的代理-环境边界界定问题,通过对Fitted Q-Iteration算法进行一个简单且新颖的边界不变量分析,解决了价值函数的定义不唯一的问题,并讨论了相关问题,如状态重置和蒙特卡罗树搜索等。