BriefGPT.xyz
Ask
alpha
关键词
exploration vs. exploitation problem
搜索结果 - 1
强化学习中基于奖励偏置的最大似然估计
该研究提出了一种针对自适应控制的方法 - Reward-Biased Maximum Likelihood Estimate(RBMLE),旨在解决 Markov 链控制中的 “探索与开采问题” 和 “双控制问题”,同时在最优化参数时采用了
→
PDF
4 years ago
Prev
Next