Jun, 2023

抓住意外收获:利用往期成功价值进行非同策略演员 - 评论家算法

TL;DR提出了混合利用和探索算法(BEE)来解决强化学习后期出现的低估 Q 值问题,具有较高的样本效率和实用性。