ICMLDec, 2019

学习内在奖励能够捕捉什么?

TL;DR研究探讨奖励函数是否可以成为有用的学习知识中心,提出了一种可扩展的元梯度框架来学习多次体验中有用的内在奖励函数。通过实验证明,学习奖励函数可以捕获关于长期探索和开发的知识,并且可以应用于其他类型的智能体和环境动态的变化。