Nov, 2023

基于虚拟行动演员 - 评论家框架的探索

TL;DR通过引入虚拟行动演员 - 评论家框架(VAAC),本文提出了一种用于强化学习中有效探索的新型演员 - 评论家框架,其灵感来自人类在不实际采取行动的情况下预想其潜在结果的能力。实验结果表明,VAAC 相比现有算法改善了探索性能。