Nov, 2022

通用策略映射:仿生昆虫大脑的在线连续强化学习

TL;DR我们基于昆虫大脑开发了一种在线连续或终身强化学习模型,该模型通过离线训练特征提取和公共通用策略层,实现了 RL 算法在在线环境中的收敛,而在任务之间共享通用策略层则导致了积极的反向迁移,这为资源受限场景下的高效在线 RL 提供了途径。