Jan, 2018

面向序列决策的分布稳健优化

TL;DR该研究探讨了在不确定参数的最具对抗性分布下,实现最大期望总回报的分布鲁棒 MDP,通过在模糊集格式中加入不确定性的广义矩和统计距离信息,将泛化动量和统计距离模糊集的现有研究推广到后者类别,进而提出了一种新的描述不确定性空间的模糊集形式。在此模糊集形式下,当满足一些温和的技术条件时,可以通过解决一系列一阶凸优化子问题来构建一份分布鲁棒策略。