Jun, 2023
抓住意外收获:利用往期成功价值进行非同策略演员 - 评论家算法
Seizing Serendipity: Exploiting the Value of Past Success in Off-Policy Actor-Critic
Tianying Ji, Yu Luo, Fuchun Sun, Xianyuan Zhan, Jianwei Zhang...
TL;DR提出了混合利用和探索算法(BEE)来解决强化学习后期出现的低估 Q 值问题,具有较高的样本效率和实用性。