BriefGPT.xyz
Ask
alpha
关键词
termdp
搜索结果 - 1
强化学习与终结者
文章探讨了外部中断对强化学习的影响,提出了 TerMDP 框架并应用于驾驶和 MinAtar 测试中,提出了一种基于动态折扣因子和置信区间的高效算法,并与多种基准方法相比较获得了显著提升
PDF
2 years ago
Prev
Next