ICLRFeb, 2024

发现具有时间感知的强化学习算法

TL;DR最近的元学习进展使得可以自动发现由代理目标函数参数化的新型强化学习算法。本文提出一种对两种现有目标发现方法进行简单扩展的方案,允许在智能体的训练过程中动态更新其目标函数,从而获得具有表达能力的进度表,并增加在不同训练时间范围内的泛化能力。