Jan, 2024

通过函数编码器实现零样本强化学习

TL;DR通过使用函数编码器来表示奖励函数或转换函数,学习代理机器人在运行时如何与先前的任务相关联的方法,并通过在强化学习算法中引入功能编码器任务表示来展示最先进的数据效率、渐近性能和训练稳定性。