Nov, 2016

用内在的恐惧解决强化学习的西西弗斯诅咒

TL;DR该研究通过学习奖励塑造技术,引入内在的恐惧机制,保护深度强化学习代理人避免周期性的灾难状态,证明了其鲁棒性和学习速度优势,并在实验中成功解决了多种问题。