Mar, 2012

强化学习的参数回报密度估计

TL;DR本文介绍了一种用于处理统一风险管理目的的参数化收益率密度估计方法,以延伸 Bellman 方程,用 TD 学习算法估计未知环境中的收益率密度, 最后用数值实验证明了该方法通过几种参数化密度估计算法实现风险敏感和稳健强化学习范式。