Oct, 2018
通过传输价值优化长时间尺度下的代理行为
Optimizing Agent Behavior over Long Time Scales by Transporting Value
Chia-Chun Hung, Timothy Lillicrap, Josh Abramson, Yan Wu, Mehdi Mirza...
TL;DR本文提出一种新的强化学习范式,利用记忆回忆特定事件来赋予过去行动以荣誉,解决了过去人工智能方法无法解决的问题,将为神经科学、心理学和行为经济学等领域提供计算机模型的机制解释。