关键词environmental stochasticity
搜索结果 - 2
- 基于不确定性的分布离线强化学习
提出了一种不确定性感知的离线强化学习方法,同时解决了认知不确定性和环境随机性,能够学习风险规避策略并表征折扣累积奖励的整个分布。通过在风险敏感和风险中立基准测试中进行全面实验评估,证明了其卓越的性能。
- 层次化模仿学习的随机环境
針對環境的隨機性,本研究提出了 Robust Type Conditioning (RTC) 方法,通過對隨機抽樣的代理類型進行對抗性訓練,實現了分佈的逼真性,並在任務性能上保持或提升了與最先進方法相比的表現。