Mar, 2024

基于不确定性的分布离线强化学习

TL;DR提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。