BriefGPT.xyz
Ask
alpha
关键词
exploration optimism
搜索结果 - 1
抓住意外收获:利用往期成功价值进行非同策略演员 - 评论家算法
提出了混合利用和探索算法(BEE)来解决强化学习后期出现的低估 Q 值问题,具有较高的样本效率和实用性。
PDF
a year ago
Prev
Next