May, 2014

近端强化学习:原始对偶空间中序贯决策的新理论

TL;DR本文提出了一种新的加强学习算法,使用似然变换、原始 - 对偶空间以及近端算子等技术,解决了关于如何设计可靠、收敛、稳健的加强学习算法、如何保证算法具有预设的安全保证、如何稳定地设计离线 - 在线学习算法、如何将加强学习与随机优化理论相结合等问题,为相关理论做出了丰富的探索和创新。