Aug, 2024

深度强化学习中的高效探索:一种新颖的贝叶斯演员-评论家算法

TL;DR本研究针对深度强化学习(DRL)中探索效率不足的问题,提出了一种新颖的贝叶斯演员-评论家算法,旨在提升环境的有效探索能力。通过理论研究和实证评估,证明该方法在标准基准和先进评估套件上的优越性,预计将为强化学习社区提供重要的工具和基础。