Jun, 2023

基于好奇心回放的模型自适应方法

TL;DR通过使用基于好奇心的优先信号的好奇式回放优化模型代理,我们在模拟环境中取得了优秀的探索性能,DreamerV3 与 Curious Replay 在Crafter基准测试上取得了超过14.5的最高分,达到了19.4的均值分数。