ICLRNov, 2020

C-Learning: 通过递归分类实现目标的学习

TL;DR探究了预测和控制自主智能体未来状态分布的问题,提出通过训练分类器间接地估计条件概率密度函数来解决,进而探究了基于 Q-learning 的目标条件强化学习方法的理论基础和假设,并且提出了可以预测新政策未来状态分布的算法。