Jun, 2014

风险厌恶通用凸化

TL;DR提出了一个凸化框架,使用随机梯度方法的算法来解决不同领域的优化问题,包括监督学习和动态系统,并且导出了模型驱动和模型无关的策略梯度优化算法,收敛性得到保证。