Jun, 2023

抓住意外收获:利用往期成功价值进行非同策略演员-评论家算法

TL;DR提出了混合利用和探索算法(BEE)来解决强化学习后期出现的低估Q值问题,具有较高的样本效率和实用性。