Nov, 2019

最坏情况策略梯度

TL;DR该研究提出了一种基于 Actor-Critic 框架和条件风险价值的深度强化学习方法,应用于驾驶模拟中,实现了在保证安全的前提下尽量提高任务完成效率,并且相比于其他深度强化学习方法,该方法更具有泛化性。