BriefGPT.xyz
Ask
alpha
关键词
stochastic planning
搜索结果 - 2
延迟随机环境中的控制:基于模型的强化学习方法
本文介绍了一种用于具有延迟反馈环境中的控制问题的新的强化学习方法,该方法采用了随机规划而非以前使用的确定性规划方法,从而在策略优化问题中嵌入了风险偏好。我们展示了该方法能够恢复具有确定性转换的问题的最优策略,并将其与文献中的两种先前方法进行
→
PDF
5 months ago
分解空间中的随机规划近似推断
该论文将随机规划分解成两个维度:正向和反向推断以及置信传播法和均值场变分推断等不同方法,进而提出折叠状态变分推断 (CSVI) 算法,并通过实验比较发现其与正向置信传播法是最佳的随机规划方法之一。
PDF
2 years ago
Prev
Next