MMAug, 2017

广义最大熵估计

TL;DR本文提出了一个基于凸规划对偶性的新的近似方案,使用平滑的快速梯度方法来估计最大化熵的概率分布,同时满足一定数量的被噪声污染的时刻约束,进一步阐述了如何通过该方案来近似化学主方程和解决具有无穷状态和动作空间的约束马尔可夫决策过程的问题。