Jun, 2022

使用元梯度下降进行预测特征发现的单经验流

TL;DR本文介绍了使用meta-gradient descent过程来进行连续学习的方法,它可让计算机代理通过预测未来感觉来选择合适的决策,并独立地选择可以解决部分可观察性问题的预测,从而实现类似于专家指定GVFs的性能,并使代理程序能够以自主的方式确定有用的预测,实现更加真正的自主系统。