BriefGPT.xyz
大模型
Ask
alpha
关键词
risk-averse policies
搜索结果 - 4
基于不确定性的分布离线强化学习
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
PDF
3 months ago
AAAI
马尔科夫决策过程中约束风险的强化学习策略
本研究提出了一种基于 MDPs 的风险受限规划算法,它将 UCT-like 搜索与通过线性规划实现的风险受限动作选择相结合,以最大化在低于所需阈值的情况下遇到故障状态的预期贴现总和回报。
PDF
4 years ago
最坏情况策略梯度
该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法,应用于驾驶模拟中,实现了在保证安全的前提下尽量提高任务完成效率,并且相比于其他深度强化学习方法,该方法更具有泛化性。
PDF
5 years ago
IJCAI
带折扣求和目标的 POMDP 中带有概率保证的期望优化
本文研究了部分可观测马尔可夫决策过程在期望优化时如何确保回报具备一定概率性保证的问题,并提出了解决这种问题的算法。
PDF
6 years ago
Prev
Next