BriefGPT.xyz
Ask
alpha
关键词
stochastic transitions
搜索结果 - 2
AAAI
潜在贝叶斯惊喜驱动下的好奇心驱动探索
利用人工好奇心提高强化学习系统的探索能力,本文提出了一种利用贝叶斯惊奇度作为衡量模型参数先验和后验之间差异的方法,将其应用于代理模型的潜在空间中,大大降低计算成本,研究表明其对连续任务的环境探索和视频游戏分数的影响要好于当前最先进技术,同时
→
PDF
3 years ago
卡尔曼时差法
介绍了一个新的近似框架,即卡尔曼时间差异(KTD)框架,用于解决强化学习中估值函数的扩展问题,并提供了解决确定性和随机性马尔可夫决策过程的 KTD 和 XKTD 算法,证明了其收敛性和比现有算法更好的性能。
PDF
10 years ago
Prev
Next