Sep, 2023

AI 代理的记忆和泛化能力分析:连续学习者是否稳健?

TL;DR提出了一种新颖的连续学习(CL)框架,通过使用有限容量的内存保存先前观察到的环境信息以减轻遗忘问题,并从内存中采样数据点来估计环境变化的风险分布,从而获得对未知变化具有鲁棒性的预测器。实验表明,该算法在所有环境中优于基于内存的 CL 基线,并显著提高了在未知目标环境中的泛化性能。