Nov, 2022

不必奖励:如何创建一个组成性的自我保存代理以进行终身学习

TL;DR本论文介绍了一个基于生理模型的特工,该特工使用Self-Preserving Agent(SPA)结构,利用Operator Bellman Equations(OBEs)编码面向目标的策略的非平稳和非马尔可夫任务,并使用固有动机功能来实现自我保护。