BriefGPT.xyz
Ask
alpha
关键词
risk-sensitive policy optimization
搜索结果 - 1
动力系统实验设计中的分层粒子滤波
本文提出了一种新颖的贝叶斯实验设计方法,将其作为风险敏感型策略优化来进行,我们开发了一种内外 SMC^2 算法,用嵌套顺序蒙特卡洛估计器来估计预期信息增益,并将其嵌入到一个粒子马尔可夫链蒙特卡洛框架中进行基于梯度的策略优化,与近期的方法相比
→
PDF
5 months ago
Prev
Next