BriefGPT.xyz
Ask
alpha
关键词
mean-variance
搜索结果 - 2
折扣马尔可夫决策过程中均值 - 方差优化的统一算法框架
用假均值将混合风险下的 MDP 转化为标准 MDP,并提出一种基于二级优化结构的统一算法框架,该框架还允许收敛性分析。通过数值实验,验证了该算法的有效性。
PDF
2 years ago
风险规避的均值方差多臂赌博机问题
本文研究了在风险厌恶的多臂老虎机问题中使用收益的均值和方差作为风险度量,并证明了 UCB 策略和 DSEE 策略可以实现收益方面的最优表现,且模型特定和模型无关的遗憾都有下界。
PDF
8 years ago
Prev
Next