Jun, 2021

策略梯度贝叶斯鲁棒优化在模仿学习中的应用

TL;DR本论文提出一种名为PG-BROIL的新型策略梯度型鲁棒优化方法,用于优化平衡预期表现和风险的软鲁棒目标,并且可以在存在大量悬而未决的奖励函数的情况下实现刻画行为从无风险到会冒风险的策略优化,进而超越了最先进的仿真学习算法。