Nov, 2023

假设网络计划探索快速元强化学习适应

TL;DRMeta Reinforcement Learning 的 Hypothesis Network Planned Exploration(HyPE)方法结合了主动和计划的探索过程,通过假设网络优化了适应速度,在快速演化的环境中显示出比基线方法更高的适应速度和模型准确性。